场景一 · 端到端追溯审计
业务背景
ASPICE 评估中最耗时的工作之一,是验证从利益相关方需求到验证结果的整条追溯链是否完整。
- 手工核对一个中等规模项目的追溯关系通常需要 5–10 个工程日
- 且容易遗漏
- 评估方在审计阶段发现断链时,项目往往已经接近交付,返工成本高
演示能力
平台读取项目的需求规格、架构设计、详细设计、测试规格四类文档:
- 自动抽取每一条工程对象(需求、设计元素、测试用例)
- 按 ASPICE 6 层模型重建追溯链
- 与项目自带的"基准追溯矩阵"做精度 / 召回率对比
- 给出可量化的审计结论
实际发给 Agent 的提示词
以下是演示账号 testcasegenerator 在 Session DEMO-A ASPICE追溯审计 里真实发出的第一句指令(完整不删节)。客户复用时只需把"ABZ 灯控"替换成自己的项目名、把 9 份 docx 文件名替换成自己的基线,其余结构可以原样套用:
这条提示词的 6 段结构(扮演 / 可用 skill / 数据 / 业务步骤 / 产出 / 通过标准)是平台跑出稳定结果的最小集合。把客户自己的 ASPICE 项目套进去最多需要替换 4 处:项目名、KB 文件清单、过程域选择、Ground Truth 文件。完整模板见 手把手教程:第一个 ASPICE 评审 Agent。
实测数据
| 维度 | 数值 |
|---|---|
| 覆盖的 Process Area | SYS.2、SWE.1、SWE.2、SWE.3、SWE.4、SWE.6 |
| 6 层节点总数 | 303 个 |
| 平台自动重建的追溯链 | 396 条 |
| 项目原有基准追溯链 | 314 条 |
| 与基准对比 | 精确率 79.29%,召回率 100%,F1 88.45% |
| 识别出的追溯问题 | 156 条 |
156 条问题按类型分布:
- 完全断链 140 条(上层有需求但下层无对应设计或测试)
- 反向孤儿 14 条(下层条目找不到上层出处)
- 命名不一致 2 条(上下层 ID 编码规则不统一)
Agent 产出的自包含 HTML 看板(A-aspice-traceability-dashboard.html):顶部 KPI、桑基图(6 层追溯链流向)、层级交叉热力图,把 303 节点 / 396 链压成一张可以交付给评估方的单页看板。

同一看板的下半部分:各 PA 追溯链统计、PA F1 评分仪表盘、156 条问题按「类型 / 严重度」的双饼图分布。

客户价值
- 时间收益:从原本 5–10 人天的人工核对,缩短到一次自动审计可在小时级完成
- 定位能力:输出包含可视化看板,让评估方和项目经理可以直接定位每一条断链所在的文档位置
- 前移能力:配合场景二可以做「变更后立即重新审计」,把追溯审计从"评估前突击"前移为"日常守门"
看板里的"全部问题清单"支持按严重度筛选:每条问题记录包含 ID / 类型 / 严重度 / 来源文档 / 层级 / 节点 ID / 缺失层级 / 描述,评估方可以直接点到文档里的章节位置。下面是按 High 筛出来的 13 条头部断链:每条都能精准告诉你「哪份 SwRS 文档、哪个需求 ID、下层 SwAD / SwDD 为空」。

交付物
| 类别 | 文件 |
|---|---|
| 报告文档 | A-aspice-traceability-report.docx |
| 可视化看板 | A-aspice-traceability-dashboard.html(离线自包含) |
| 结构化数据 | metrics.json / pa_stats.json / issues.json |
平台执行视图
以下是本场景在平台上真实跑出来的过程截图(testcasegenerator 演示账号,Session DEMO-A ASPICE追溯审计):
执行摘要(OUTPUT_JSON,含 P/R/F1 量化指标)

最终答案(英文任务小结)
Agent 给出了任务的英文总结,明确说明「从 7 份项目文档抽取 ID,跨 6 层重建追溯链,与 Ground Truth 比对计算 P/R/F1,识别 3 类问题」。

产出文件面板(50 个文件,含 docx 报告、html 看板、分析 json)
会话右侧「文件」面板列出了整个 Session 的全部产出物,包括 A-aspice-traceability-dashboard.html、A-aspice-traceability-report.docx、analysis-results.json 以及中间态的 exec_*.py、runner.py 等。
