可观测性
为什么可观测性是核心
在企业场景下,AI 不仅要"能用",还必须"可治理":
- 合规审计 — 每一条判断都要带依据
- 故障定位 — Agent 为什么这么决策?
- 成本治理 — Token 消耗、模型调用、外部 API 用量
- 质量追溯 — 产出结论的每一步都可回溯
四个可观测性层面
| 层面 | 观测对象 | 典型工具 |
|---|---|---|
| 业务层 | 会话、技能调用、产出文件 | 工作台审计日志 |
| Agent 层 | 每一次思考、工具调用、Sub-agent 委派 | Session 执行轨迹 |
| 系统层 | 模型调用、token 消耗、延迟 | Prometheus + Grafana |
| 基础设施层 | CPU / 内存 / 网络 / 存储 | 标准云监控 |
Session 执行轨迹(Session Replay)
每个 Session 都可以完整回放:
Rendering diagram…
回放面板包含:
- 每一步的时间戳
- 每一步的模型调用(含 prompt 与 completion)
- 每一步的工具调用(含参数与返回值)
- 每一步的 token 使用量与成本
这让故障复现和合规审计都可做到分钟级。
Ledger:步骤级纪律执行
Ledger 是 Orchestrator 的核心组件,逐步记录:
step_status追踪(pending / running / success / failed)- 每条匹配的置信度
- 低置信度自动触发语义回溯多轮校验
- 纪律校验与 replan 熔断触发条件
Ledger 的记录是 Agent 不可跳过的——不是"做完才记",而是"记一条做一条"。
分布式追踪
基于 OpenTelemetry 标准:
Rendering diagram…
- Trace ID 贯穿整个请求链路
- 跨 Agent / 跨 Sub-agent / 跨外部 API 的调用全部串联
- 与 Jaeger / Tempo / DataDog 等标准 APM 系统对接
成本可视化
按维度聚合:
- 按租户 / 用户 / Session / 技能
- 按模型 / 时间段
- 按成功 / 失败状态
便于做模型成本优化与预算控制。