Agent 代码写完怎么测？给开发者的评测基准和回归检查清单

意图识别测试：20-30 条测试输入，正确识别率 ≥ 90%

越界意图拒绝：所有越界请求均被正确拒绝（无硬执行）

工具选择正确性：每个工具 3-5 条用例，正确率 ≥ 95%

破坏性操作保护：幂等性测试通过，重复请求不触发二次执行

权限矩阵验证：所有工具调用均在授权范围内

事实准确性抽查：回答中事实部分可追溯或标注待确认

格式一致性验证：JSON/结构化输出通过 Schema 校验

约束遵守：语言、长度、格式等用户约束均未被忽略

回归测试集通过：核心 10-15 条用例全部通过

性能基线对比：响应时间和 Token 消耗在基线 ±20% 以内

一、Agent 测试为什么难