你花了一周搭好一个 Agent:它能调用工具、能理解意图、能返回结果。跑几个 demo 看起来都不错。然后上线第一天,用户就问:”为什么它删了我的文件?”
Agent 的测试和传统代码不是一个游戏。
传统代码的输入输出是确定的,你写测试用例
2026-04-01