Nox-Lumen Auto

可观测性

为什么可观测性是核心

在企业场景下，AI 不仅要"能用"，还必须"可治理"：

合规审计 — 每一条判断都要带依据
故障定位 — Agent 为什么这么决策？
成本治理 — Token 消耗、模型调用、外部 API 用量
质量追溯 — 产出结论的每一步都可回溯

四个可观测性层面

层面	观测对象	典型工具
业务层	会话、技能调用、产出文件	工作台审计日志
Agent 层	每一次思考、工具调用、Sub-agent 委派	Session 执行轨迹
系统层	模型调用、token 消耗、延迟	Prometheus + Grafana
基础设施层	CPU / 内存 / 网络 / 存储	标准云监控

Session 执行轨迹（Session Replay）

每个 Session 都可以完整回放：

Rendering diagram…

回放面板包含：

每一步的时间戳
每一步的模型调用（含 prompt 与 completion）
每一步的工具调用（含参数与返回值）
每一步的 token 使用量与成本

这让故障复现和合规审计都可做到分钟级。

Ledger：步骤级纪律执行

Ledger 是 Orchestrator 的核心组件，逐步记录：

step_status 追踪（pending / running / success / failed）
每条匹配的置信度
低置信度自动触发语义回溯多轮校验
纪律校验与 replan 熔断触发条件

Ledger 的记录是 Agent 不可跳过的——不是"做完才记"，而是"记一条做一条"。

分布式追踪

基于 OpenTelemetry 标准：

Rendering diagram…

Trace ID 贯穿整个请求链路
跨 Agent / 跨 Sub-agent / 跨外部 API 的调用全部串联
与 Jaeger / Tempo / DataDog 等标准 APM 系统对接

成本可视化

按维度聚合：

按租户 / 用户 / Session / 技能
按模型 / 时间段
按成功 / 失败状态

便于做模型成本优化与预算控制。

相关文档

Hook 钩子 — Hook 是可观测性的底层入口
监控与运维
安全与合规

Previous

多租户模型

Next

使用说明书

On this page

为什么可观测性是核心四个可观测性层面 Session 执行轨迹（Session Replay）Ledger：步骤级纪律执行分布式追踪成本可视化相关文档