Nox-Lumen AutoNox-Lumen Auto

知识库

知识库是 combo agent 的外部记忆。把企业规范、既往项目、行业标准一次性喂进去,Agent 在回答/生成时会自动检索相关片段。

1. 入口

顶部菜单 "知识库" 标签进入。

知识库列表页(我的 / 团队 分组 + 创建按钮)

页面分三块:

  • 顶部搜索:按名称搜。
  • "我的知识库":你本人创建的。
  • "团队知识库":当前租户/团队成员创建并共享给你的。

跨租户(如你既在汽车项目又在专利项目的租户里)切换顶部租户后,知识库列表会过滤到当前租户可见范围。

2. 创建知识库

点击右上角 "创建知识库",填写:

字段说明建议
名称显示名业务含义命名,如"汽车规范 ISO 26262"、"张三的专利素材"
头像可选 icon不重要,便于视觉识别
描述简短说明写清楚「里面是什么文档、给谁用」
权限私有 / 租户内共享私有只你可见;共享=租户成员可引用
语言中 / 英 / 混合影响分词与 embedding 策略

创建成功后会进入知识库详情页,左侧有四个子页签:数据集 / 检索测试 / 切片 / 设置

知识库详情页(含数据集/检索测试/切片/设置 四个 Tab)

3. 上传文档(数据集)

3.1 支持格式

.pdf   .docx   .xlsx   .txt   .md   .html   .csv   .rtf
.ppt   .pptx
.jpg .jpeg .png .gif .bmp .tiff .webp .svg   (含 OCR)
.mp3 .wav   (音频转录)
.eml   (邮件)
.dbc   (汽车总线信号库)

3.2 上传方式

  • 拖拽:直接把文件/文件夹拖到页面。
  • 点击上传:打开文件选择器。
  • 批量上传:单次最多 100 文件,超出自动分批。
  • 文件夹递归:保留目录结构作为文档标签。

文件列表页(含状态列:待解析/解析中/已解析/失败)

3.3 解析状态

状态含义典型用时
待解析已上传未排队
解析中正在切片 + embedding1–30 秒/文件
已解析可被检索
失败文件损坏 / 格式不支持 / OCR 超时点"重试"或替换文件

解析失败的文档不会被检索。生产环境有个"定时重试"兜底,但别依赖它;重要文档上传完马上看状态列。

4. 切片方式(最重要的设置)

一个文档能否被 Agent "用好",70% 取决于切片策略。在 "设置" Tab 里选 parser_id,系统提供 15 种:

Parser中文名适用文档类型核心逻辑
naive通用(默认)任何文本按固定 token 数 + 可选分隔符切分
qa问答对FAQ / 对话记录识别 Q/A 成对切片
resume简历简历 PDF / Docx按简历段落结构切
manual手册用户手册 / 产品说明书按 h1/h2 结构切,保留章节上下文
table表格纯表格 Excel / 带表 Docx行/单元格粒度切,保留列头
paper论文学术论文 PDF按 Abstract/Introduction/Method/Conclusion 切
book书籍长篇著作章/节/小节三级结构
laws法律法条 / 审查指南按条款编号切,保留层级引用
presentation幻灯片PPT / PPTX每页一个切片 + OCR 图中文字
picture图片纯图 + OCR一张图一个切片,OCR 后的文本入 embedding
one整文档短文档(< 几千 token)整个文档作为一个切片
audio音频录音转录 → 按说话人/时间片切
email邮件.eml按线程/发件人切片
tag标签库术语表 / 标签不做切片,作为标签字典被其他 KB 引用
knowledge_graph知识图谱任意文本抽实体关系,构建 KG,支持图检索

选择建议

Rendering diagram…

4.0.1 切片解析结果浏览:以 ABZ ASPICE 案例为例

文档上传 + 解析完成后,每个文件都可以从"知识库 → 数据集"列表点进去,进入解析块(chunks)浏览页,逐条查看 LLM 切出的内容。

下面以 ABZ 知识库(基于 Eclipse S-CORE 的 ABZ 自适应外部照明 ASPICE 全套交付物)为例。

Step 1:文件列表页

进入知识库后能看到文档列表,每行展示:文件名、所在目录、分块数、上传日期、切片方法、启用开关、解析状态、动作按钮。

ABZ 知识库的文件列表(切片方法 + 解析状态)

Step 2:点文件名进入解析块页

点任意文件名(如 09-Executive-Summary-and-Cover-v1.17.docx)进入"解析块"页面:

  • 顶部面包屑知识库 / 数据集 / 解析块,可一键回退
  • 每条 chunk 独立卡片展示,右上角有启用开关,可以单条停用
  • 结构化内容保留:表格被识别为表格 chunk(如上图中 Subject / Program / Platform / Compliance 等元数据表格被完整切出,行列结构未被打散)
  • 批量操作:左上角"批量"可以多选 chunk 后启用 / 停用 / 删除
  • 检索预览:右上角"全文 / 省略 / 搜索 / 过滤"按钮支持快速找到特定 chunk

解析块(chunk)浏览页:保留原文档表格结构,按片粒度可启用 / 停用

同样的浏览页适用于所有 parser(naive / qa / paper / book / picture / one 等)。区别只是切片粒度和切片内字段:

  • naive / book / paper:文本块 + 段落表格
  • picture:每张图一个 chunk,内容是视觉 LLM 输出的结构化描述
  • qa:每对 Q/A 一个 chunk
  • knowledge_graph:每个实体 / 关系一个 chunk

4.1 通用切片参数(所有 parser 共用)

切片配置表单(含 token 数 / 分隔符 / layout recognize 开关)

参数范围含义
Chunk Token 数64–2048单个切片的最大 token;小→检索精准,大→保留上下文
分隔符正则 / 字符串强制切分点,多值换行分隔(如 \n\n
Auto Keywords0–30每片自动抽取 N 个关键词,做 BM25 辅助检索
Auto Questions0–10每片自动生成 N 个潜在问题,提高 Recall
Layout RecognizeON / OFF是否启用视觉版面识别(标题/图表定位);PDF/PPT 强烈建议 ON

4.2 嵌入模型

"设置 → 嵌入模型" 下拉选:

  • bge-large-zh-v1.5(中文默认,1024 维)
  • bge-m3(多语言,1024 维)
  • text-embedding-3-small / -3-large(OpenAI)
  • 自部署:GPUStackOllamaXinference 提供的任何 embedding 模型

一旦上传文档并解析,embedding 模型不能再改。切模型会导致新旧切片向量空间不一致,只能删库重建。务必在上传前确认。

5. 检索测试

"检索测试" Tab:在正式接入 Agent 之前验证切片质量。

检索测试页(输入问题 → 返回 top-k 片段 + 相关性得分)

  • 输入问题 / 关键词
  • Vector / Text / Hybrid 三种模式
  • top_k(1–30)
  • 查看返回片段 + 相关性得分 + 所属文档 + 切片 ID

判断标准

  • 期望答案所在文档片段排在 Top-5:切片配置 OK
  • 排不进 Top-20:调小 chunk token、开 Auto Questions、换 embedding
  • 完全检索不到:检查文档是否"已解析"、embedding 是否正确生成

6. 绑定到 Agent(最关键一步)

知识库本身只存数据,不会自动被 Agent 调用。你必须显式绑定

6.1 三种绑定方式

当前版本提供三种绑定入口(按常用度排序):

方式入口适用场景
会话级别临时绑定ChatInput → 📎 附件按钮上传文件一次性任务(总结这份 PDF、分析这份 docx)
Combo/Agent API 级别绑定后端创建 Combo 时在 payload 中传 kb_ids: ["kb_xxx"]企业规范、行业标准等需要每次会话都生效的知识库
CronJob 定时任务绑定个人中心 → 定时任务 → 创建任务时在 kb_ids 字段选知识库每日/每周扫描知识库并汇总分析

当前版本的 Agent 模板编辑 UI 尚未对外暴露 kb_ids 字段,需要通过 API/CronJob 配置。后续会补充"编辑 Agent → 勾选知识库"的图形化入口。

Rendering diagram…

6.2 临时知识库 vs 正式知识库

维度临时知识库正式知识库
创建方式ChatInput 直接上传附件顶部「知识库」菜单创建
作用范围仅当前会话跨会话、跨租户成员可引用
持久化会话删除即丢失独立存储
Agent 自动看到当前会话的 Agent 自动包含必须绑定 kb_ids 才进入检索

最佳实践:临时上传适合一次性任务(如"帮我总结这个 PDF"),正式知识库适合需要长期复用的资料(如企业规范、行业标准)。

7. 知识图谱(KG)

parser_id=knowledge_graph 的知识库会额外构建实体-关系图,支持:

  • 图可视化(力导图):探索实体之间的联系
  • 图检索:问"A 和 B 之间有什么关系?"时按图遍历回答
  • 属性检索:按实体属性过滤(如"找所有类型=芯片的实体")

知识图谱可视化(节点 = 实体,边 = 关系)

详见:Skills / 知识图谱 中相关能力说明。

8. 常见问题

Q:上传了文档为什么 Agent 还是答不准? A:按顺序检查:

  1. 文档解析状态是否 ✅ 已解析
  2. 到「检索测试」试问,看期望片段能否 Top-5 命中
  3. 到 Agent 编辑页确认该知识库已出现在 kb_ids 多选里
  4. 在会话里问时,Plan Mode 是否是 Auto/FullFast 会跳过部分规划,可能不触发检索步骤)

Q:同一个文档传两次会重复吗? A:系统按文件哈希 + 文件名去重。同名文件覆盖升级(旧切片删除重建),不会产生重复片段。

Q:能不能控制哪些切片允许被检索、哪些不行? A:可以。每个切片可设"启用/禁用"(在"切片"Tab 的列表里切开关),禁用的片段不参与 embedding 检索。

Q:知识库容量上限? A:没有硬限制,但建议单库 < 100 万 chunk。超量请按主题拆库。ES / Infinity 驱动下单库 1000 万 chunk 检索仍 < 300ms,但管理界面会变卡。

Q:团队成员删了知识库,我本地还能用吗? A:不能。删除是硬删除,Agent 绑定 kb_ids 中对应条目会在下次检索时报"库不存在",需要移除或替换。

9. 下一步

  • 知识库切片选好了,想进一步调 Agent 的记忆与检索策略?→ Agent 设置
  • 想让 Agent 在汽车需求专利撰写场景里用知识库?→ 见对应场景说明书
  • 想让其他用户/租户也能看到你的知识库?→ 协作与团队

On this page