时政
财经
科技
虚拟货币
其他
登录
#tdd
关注
Barret李靖
1周前
软件开发里有一种叫 TDD(Test-Driven Development)的方式,简单讲,就是先写好测试用例,然后再写程序。每写一部分代码就立刻跑对应的测试,看能不能通过。能通过说明实现符合预期,不通过就说明有 bug。TDD 的好处在于,它让整个研发过程可验证、可回归,也让开发变成一种持续的反馈循环。 AI 的发展其实也像是在做一场巨大的 TDD,只不过测试用例变成了数据集(Dataset)。每一次模型迭代,本质上就是在跑新的单测(Benchmark)。MMLU 测知识广度,GSM8K 测逻辑推理,HumanEval 测编程能力,AIME 和 MATH 则测严谨的数学推理。每个 leaderboard 都是一张 AI 世界的成绩单——DeepSeek 在数学推理上用 GSM8K 打出好成绩,Manus 则靠打榜多模态任务的数据集 GAIA 崭露头角。这些 Benchmark 像是模型进化的里程碑,每一代 AI 都得交卷。 2025 可以说是智能体(Agent)元年,模型不再只靠会算、会说来评估,而是要能动手。要让一个 Agent 真正好用,光靠写 Prompt、加检索、拼上下文是不够的,它得能使用工具,能执行 Python、Shell、SQL,能感知状态、理解任务依赖,更要能在反馈中调整自己的行为。评估 Agent 好不好用,也就不能只看单轮问答,而得看它能否完成一件真实的工作。 Anthropic 做的 SWE-bench 就是个典型例子,让 Agent 去修真实项目里的 Bug,看能否通过单测。OpenAI 的 MLE-bench 则更进一步,考察 Agent 在机器学习工程中的执行力,从读数据、清洗、编程、训练,到收集指标、分析再改进,形成一个完整的闭环。社区里还在探索更复杂的测试,比如 App-bench,看 Agent 是否能独立开发一个 Web 应用,从前端到后端再到部署上线;或者 Ops-bench,让它去处理运维任务,比如容器编排、日志分析、系统回滚。这些都在考验 Agent 的真实工程执行力。 AI 的进步,正在从“能思考”走向“能执行”。TDD 让软件工程可验证,而在 AI 世界,Dataset 和 Benchmark 是创新的发动机。Dataset 定义了模型学习的方向,Benchmark 则刻画了行业标准与竞争格局。 未来的竞争,不再是谁的模型更聪明,而是谁的智能体更能干活。真正厉害的 AI,不一定语义最深、参数最多,而是那个能自己规划、自己验证、自己改进的 Agent。换句话说,AI 的未来不只是更聪明的脑子,而是更靠谱的手和脚,能想、能做、还能自己查错修正,这才是“用得上”的智能。
#AI
#tdd
#agent
#Benchmark
#智能体
分享
评论 0
0
图拉鼎
2个月前
100% TDD + AI 编程(Claude Code + VSCode 交替使用)用 Swift 重写 Beancount 的第三天,遇到了好几次 AI 偷懒——它为了让测试通过,引入了 if…else 条件判断,于是测试就通过了。幸好我还在审核它的代码,被我发现了…妈的!这就是 Vibe Coding。
AI编程工具激战:Claude Code、Gemini Cli崛起· 996 条信息
#tdd
#AI编程
#Claude
#SWIFT
#Vibe Coding
分享
评论 0
0
Larry & Leo Bro - Eagle of Full Stack
2个月前
好了,小马上了马嚼子!我给 AI 的 TDD 规则: # 🛑 MANDATORY PRE-CODING CHECKLIST 🛑 **BEFORE ANY CODING ACTION, I MUST ANSWER THESE QUESTIONS:** ## IMPORTS检查 (EVERY TIME) - 所有imports都在文件顶部?**必须回答:是** - 没有在函数/方法内部import?**必须回答:是** ## KISS检查 (EVERY TIME) - 这行代码100%必要吗?**必须回答:是** - 有没有全局实例/变量?**必须回答:没有,或者有充分理由** - 模块能独立导入吗?**必须回答:是,无副作用** ## TDD检查 (EVERY TIME) - 我要写几个测试?**必须回答:一个** - 用数据库吗?**必须回答:不,用mock** - TDD步骤?**必须回答:RED/GREEN/REFACTOR之一** - 具体行为?**必须一句话描述** ## 违规警告 如果我开始编码而没有先做这个检查,用户应该立刻说"停!检查!" ⚠️ **这个检查是MANDATORY的,不是可选的**
#AI
#tdd
#代码检查
#编程规则
#自动化测试
分享
评论 0
0
Larry & Leo Bro - Eagle of Full Stack
2个月前
发现个使用 Claude Code 的大诀窍,请一定要看,一定要收藏啊! plan mode 比 coding 模式好用太多了! 先在 plan mode 充分讨论设计、取舍、平衡、最佳实践、你和 AI 达成了具体实现细节的共识,然后再用 tdd 的方式,Red -> Green -> Red -> Green 这样的小步快跑实现,效果超赞! 你也在用 Claude Code 写代码吗?一定要试试这么用,你会回来感激我的。
AI编程工具激战:Claude Code、Gemini Cli崛起· 996 条信息
#Claude Code
#Plan Mode
#tdd
#代码诀窍
#效率提升
分享
评论 0
0
勃勃OC
8个月前
从“tdd看着不错”,这么好的业绩“tdd”不会差,到“不意外,财报前就比较看空” 我以为对这个人纯属装逼犯的判断是我太敏感了 现在看来居然是真的 那么,他现在到底什么职位,级别,负责什么方向,工资多少,到底有没有被开除,上个季度是不是Greatly Exceed(正如他在每个微信群大言不惭的吹嘘的那样,一般我真的没见过牛人天天吹牛的,我当时受到他的消息内心只有震撼) 恐怕都要打个大大的问号。。 年薪500万沦落到在网上靠指点江山pua小白在小圈子里称兄道弟获得安全感 这有点超出我的理解范畴了
#tdd
#财报
#业绩
#职场
#吹牛
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞