从TDD到EDD：为何评估驱动开发是AI工程的未来

原创

于 2025-07-30 08:15:00 发布 · 859 阅读

·

27

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#tdd #驱动开发 #人工智能

还记得你的AI首次给出自信满满的错误答案时的情景吗？或者当你的聊天机器人完全无视"最多500字"的指令时的无奈？欢迎来到概率性软件的奇妙世界——在这里，测试驱动开发（TDD）遇到了对手，而评估驱动开发（EDD）接过了方向盘。

单元测试欺骗我的那一天

想象一下：你编写了完美的单元测试，满眼都是绿色的对勾，代码覆盖率高达95%。你将代码部署到生产环境，打开庆祝的饮料，然后……你的AI开始像在火人节上一样胡言乱语。

这听起来是不是很熟悉？因为传统软件工程成长于确定性的世界，在那里assert(2+2)==4永远成立。但AI工程呢？那完全是另一番景象。我们每天都在和每周更新的模型权重、用户创造性破解的提示词打交道，而成功的标准不再是"它奏效了吗？"，而是"它多久奏效一次？效果如何？我们会因为API成本而破产吗？"

没人提醒过你的范式转变

为何你的单元测试正经历存在性危机

让我们直面现实：为什么传统测试在AI世界里像巧克力茶壶一样不堪一击？

二元幻觉

经典测试：extractEmail()会返回电子邮件吗？

现实：你的大语言模型（LLM）可能返回"[email protected]"、"[email protected]"、"john[at]example.com"，偶尔还会蹦出一首关于电子邮件的俳句。
模型版本探戈

周一：所有测试在GPT-4上通过

周二：OpenAI发布GPT-4-turbo

周三：你一半的"正常工作"功能开始用抑扬格五音步说话
无视成本的灾难

你的测试：✅全部通过！

你的AWS账单：📈47,000美元

你的首席财务官：😱"你说的'每天'是什么意思？！"
无人谈论的漂移

你在1月份精心调整的提示词？到3月份，它可能会建议用户在披萨上涂胶水——因为Reddit上是这么说的。欢迎来到模型漂移的世界——这份"礼物"会不断索取代价。
隐藏的漂移触发器

即使你的代码被完美冻结，参数锁得比诺克斯堡还严

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

大模型之路 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。