Nox-Lumen AutoNox-Lumen Auto

知识库

知识库是 combo agent 的外部记忆。把企业规范、既往项目、行业标准一次性喂进去,Agent 在回答/生成时会自动检索相关片段。

1. 入口

顶部菜单 "知识库" 标签进入。

知识库列表页(我的 / 团队 分组 + 创建按钮)

页面分三块:

  • 顶部搜索:按名称搜。
  • "我的知识库":你本人创建的。
  • "团队知识库":当前租户/团队成员创建并共享给你的。

跨租户(如你既在汽车项目又在专利项目的租户里)切换顶部租户后,知识库列表会过滤到当前租户可见范围。

2. 创建知识库

点击右上角 "创建知识库",填写:

字段说明建议
名称显示名业务含义命名,如"汽车规范 ISO 26262"、"张三的专利素材"
头像可选 icon不重要,便于视觉识别
描述简短说明写清楚「里面是什么文档、给谁用」
权限私有 / 租户内共享私有只你可见;共享=租户成员可引用
语言中 / 英 / 混合影响分词与 embedding 策略

创建成功后会进入知识库详情页,左侧有四个子页签:数据集 / 检索测试 / 切片 / 设置

知识库详情页(含数据集/检索测试/切片/设置 四个 Tab)

3. 上传文档(数据集)

3.1 支持格式

.pdf   .docx   .xlsx   .txt   .md   .html   .csv   .rtf
.ppt   .pptx
.jpg .jpeg .png .gif .bmp .tiff .webp .svg   (含 OCR)
.mp3 .wav   (音频转录)
.eml   (邮件)
.dbc   (汽车总线信号库)
.a2l   (ECU 标定参数)
.ldf   (LIN 总线描述)

3.2 上传方式

  • 拖拽:直接把文件/文件夹拖到页面。
  • 点击上传:打开文件选择器。
  • 批量上传:单次最多 100 文件,超出自动分批。
  • 文件夹递归:保留目录结构作为文档标签。

文件列表页(含状态列:待解析/解析中/已解析/失败)

3.3 解析状态

状态含义典型用时
待解析已上传未排队
解析中正在切片 + embedding1–30 秒/文件
已解析可被检索
失败文件损坏 / 格式不支持 / OCR 超时点"重试"或替换文件

解析失败的文档不会被检索。生产环境有个"定时重试"兜底,但别依赖它;重要文档上传完马上看状态列。

4. 切片方式(最重要的设置)

一个文档能否被 Agent "用好",70% 取决于切片策略。在 "设置" Tab 里选 parser_id,系统提供 15 种:

Parser中文名适用文档类型核心逻辑
naive通用(默认)任何文本按固定 token 数 + 可选分隔符切分
qa问答对FAQ / 对话记录识别 Q/A 成对切片
resume简历简历 PDF / Docx按简历段落结构切
manual手册用户手册 / 产品说明书按 h1/h2 结构切,保留章节上下文
table表格纯表格 Excel / 带表 Docx行/单元格粒度切,保留列头
paper论文学术论文 PDF按 Abstract/Introduction/Method/Conclusion 切
book书籍长篇著作章/节/小节三级结构
laws法律法条 / 审查指南按条款编号切,保留层级引用
presentation幻灯片PPT / PPTX每页一个切片 + OCR 图中文字
picture图片纯图 + OCR一张图一个切片,OCR 后的文本入 embedding
one整文档短文档(< 几千 token)整个文档作为一个切片
audio音频录音转录 → 按说话人/时间片切
email邮件.eml按线程/发件人切片
tag标签库术语表 / 标签不做切片,作为标签字典被其他 KB 引用
knowledge_graph知识图谱任意文本抽实体关系,构建 KG,支持图检索

选择建议

Rendering diagram…

4.0.1 切片解析结果浏览:以 ABZ ASPICE 案例为例

文档上传 + 解析完成后,每个文件都可以从"知识库 → 数据集"列表点进去,进入解析块(chunks)浏览页,逐条查看 LLM 切出的内容。

下面以 ABZ 知识库(基于 Eclipse S-CORE 的 ABZ 自适应外部照明 ASPICE 全套交付物)为例。

Step 1:文件列表页

进入知识库后能看到文档列表,每行展示:文件名、所在目录、分块数、上传日期、切片方法、启用开关、解析状态、动作按钮。

ABZ 知识库的文件列表(切片方法 + 解析状态)

Step 2:点文件名进入解析块页

点任意文件名(如 09-Executive-Summary-and-Cover-v1.17.docx)进入"解析块"页面:

  • 顶部面包屑知识库 / 数据集 / 解析块,可一键回退
  • 每条 chunk 独立卡片展示,右上角有启用开关,可以单条停用
  • 结构化内容保留:表格被识别为表格 chunk(如上图中 Subject / Program / Platform / Compliance 等元数据表格被完整切出,行列结构未被打散)
  • 批量操作:左上角"批量"可以多选 chunk 后启用 / 停用 / 删除
  • 检索预览:右上角"全文 / 省略 / 搜索 / 过滤"按钮支持快速找到特定 chunk

解析块(chunk)浏览页:保留原文档表格结构,按片粒度可启用 / 停用

同样的浏览页适用于所有 parser(naive / qa / paper / book / picture / one 等)。区别只是切片粒度和切片内字段:

  • naive / book / paper:文本块 + 段落表格
  • picture:每张图一个 chunk,内容是视觉 LLM 输出的结构化描述
  • qa:每对 Q/A 一个 chunk
  • knowledge_graph:每个实体 / 关系一个 chunk

4.1 通用切片参数(所有 parser 共用)

切片配置表单(含 token 数 / 分隔符 / layout recognize 开关)

参数范围含义
Chunk Token 数64–2048单个切片的最大 token;小→检索精准,大→保留上下文
分隔符正则 / 字符串强制切分点,多值换行分隔(如 \n\n
Auto Keywords0–30每片自动抽取 N 个关键词,做 BM25 辅助检索
Auto Questions0–10每片自动生成 N 个潜在问题,提高 Recall
Layout RecognizeON / OFF是否启用视觉版面识别(标题/图表定位);PDF/PPT 强烈建议 ON

4.2 嵌入模型

"设置 → 嵌入模型" 下拉选:

  • bge-large-zh-v1.5(中文默认,1024 维)
  • bge-m3(多语言,1024 维)
  • text-embedding-3-small / -3-large(OpenAI)
  • 自部署:GPUStackOllamaXinference 提供的任何 embedding 模型

一旦上传文档并解析,embedding 模型不能再改。切模型会导致新旧切片向量空间不一致,只能删库重建。务必在上传前确认。

5. 检索测试

"检索测试" Tab:在正式接入 Agent 之前验证切片质量。

检索测试页(输入问题 → 返回 top-k 片段 + 相关性得分)

  • 输入问题 / 关键词
  • Vector / Text / Hybrid 三种模式
  • top_k(1–30)
  • 查看返回片段 + 相关性得分 + 所属文档 + 切片 ID

判断标准

  • 期望答案所在文档片段排在 Top-5:切片配置 OK
  • 排不进 Top-20:调小 chunk token、开 Auto Questions、换 embedding
  • 完全检索不到:检查文档是否"已解析"、embedding 是否正确生成

6. 绑定到 Agent(最关键一步)

知识库本身只存数据,不会自动被 Agent 调用。你必须显式绑定

6.1 三种绑定方式

当前版本提供三种绑定入口(按常用度排序):

方式入口适用场景
会话级别临时绑定ChatInput → 📎 附件按钮上传文件一次性任务(总结这份 PDF、分析这份 docx)
Combo/Agent API 级别绑定后端创建 Combo 时在 payload 中传 kb_ids: ["kb_xxx"]企业规范、行业标准等需要每次会话都生效的知识库
CronJob 定时任务绑定个人中心 → 定时任务 → 创建任务时在 kb_ids 字段选知识库每日/每周扫描知识库并汇总分析

当前版本的 Agent 模板编辑 UI 尚未对外暴露 kb_ids 字段,需要通过 API/CronJob 配置。后续会补充"编辑 Agent → 勾选知识库"的图形化入口。

Rendering diagram…

6.2 会话级附件 vs 正式知识库

维度会话级附件正式知识库
创建方式ChatInput 直接上传附件顶部「知识库」菜单创建
作用范围仅当前会话跨会话、跨租户成员可引用
持久化会话删除即丢失独立存储
Agent 自动看到当前会话的 Agent 自动包含必须绑定 kb_ids 才进入检索

最佳实践:临时上传适合一次性任务(如"帮我总结这个 PDF"),正式知识库适合需要长期复用的资料(如企业规范、行业标准)。

7. 知识图谱(KG)

parser_id=knowledge_graph 的知识库会额外构建实体-关系图,支持:

  • 图可视化(力导图):探索实体之间的联系
  • 图检索:问"A 和 B 之间有什么关系?"时按图遍历回答
  • 属性检索:按实体属性过滤(如"找所有类型=芯片的实体")

知识图谱可视化(节点 = 实体,边 = 关系)

详见:Skills / 知识图谱 中相关能力说明。

8. 常见问题

Q:上传了文档为什么 Agent 还是答不准? A:按顺序检查:

  1. 文档解析状态是否 ✅ 已解析
  2. 到「检索测试」试问,看期望片段能否 Top-5 命中
  3. 到 Agent 编辑页确认该知识库已出现在 kb_ids 多选里
  4. 在会话里问时,Plan Mode 是否是 Auto/FullFast 会跳过部分规划,可能不触发检索步骤)

Q:同一个文档传两次会重复吗? A:系统按文件哈希 + 文件名去重。同名文件覆盖升级(旧切片删除重建),不会产生重复片段。

Q:能不能控制哪些切片允许被检索、哪些不行? A:可以。每个切片可设"启用/禁用"(在"切片"Tab 的列表里切开关),禁用的片段不参与 embedding 检索。

Q:知识库容量上限? A:没有硬限制,但建议单库 < 100 万 chunk。超量请按主题拆库。ES / Infinity 驱动下单库 1000 万 chunk 检索仍 < 300ms,但管理界面会变卡。

Q:团队成员删了知识库,我本地还能用吗? A:不能。删除是硬删除,Agent 绑定 kb_ids 中对应条目会在下次检索时报"库不存在",需要移除或替换。

9. 下一步

  • 知识库切片选好了,想进一步调 Agent 的记忆与检索策略?→ Agent 设置
  • 想让 Agent 在汽车需求专利撰写场景里用知识库?→ 见对应场景说明书
  • 想让其他用户/租户也能看到你的知识库?→ 协作与团队

On this page