#Benchmark

Barret李靖
1个月前
软件开发里有一种叫 TDD(Test-Driven Development)的方式,简单讲,就是先写好测试用例,然后再写程序。每写一部分代码就立刻跑对应的测试,看能不能通过。能通过说明实现符合预期,不通过就说明有 bug。TDD 的好处在于,它让整个研发过程可验证、可回归,也让开发变成一种持续的反馈循环。 AI 的发展其实也像是在做一场巨大的 TDD,只不过测试用例变成了数据集(Dataset)。每一次模型迭代,本质上就是在跑新的单测(Benchmark)。MMLU 测知识广度,GSM8K 测逻辑推理,HumanEval 测编程能力,AIME 和 MATH 则测严谨的数学推理。每个 leaderboard 都是一张 AI 世界的成绩单——DeepSeek 在数学推理上用 GSM8K 打出好成绩,Manus 则靠打榜多模态任务的数据集 GAIA 崭露头角。这些 Benchmark 像是模型进化的里程碑,每一代 AI 都得交卷。 2025 可以说是智能体(Agent)元年,模型不再只靠会算、会说来评估,而是要能动手。要让一个 Agent 真正好用,光靠写 Prompt、加检索、拼上下文是不够的,它得能使用工具,能执行 Python、Shell、SQL,能感知状态、理解任务依赖,更要能在反馈中调整自己的行为。评估 Agent 好不好用,也就不能只看单轮问答,而得看它能否完成一件真实的工作。 Anthropic 做的 SWE-bench 就是个典型例子,让 Agent 去修真实项目里的 Bug,看能否通过单测。OpenAI 的 MLE-bench 则更进一步,考察 Agent 在机器学习工程中的执行力,从读数据、清洗、编程、训练,到收集指标、分析再改进,形成一个完整的闭环。社区里还在探索更复杂的测试,比如 App-bench,看 Agent 是否能独立开发一个 Web 应用,从前端到后端再到部署上线;或者 Ops-bench,让它去处理运维任务,比如容器编排、日志分析、系统回滚。这些都在考验 Agent 的真实工程执行力。 AI 的进步,正在从“能思考”走向“能执行”。TDD 让软件工程可验证,而在 AI 世界,Dataset 和 Benchmark 是创新的发动机。Dataset 定义了模型学习的方向,Benchmark 则刻画了行业标准与竞争格局。 未来的竞争,不再是谁的模型更聪明,而是谁的智能体更能干活。真正厉害的 AI,不一定语义最深、参数最多,而是那个能自己规划、自己验证、自己改进的 Agent。换句话说,AI 的未来不只是更聪明的脑子,而是更靠谱的手和脚,能想、能做、还能自己查错修正,这才是“用得上”的智能。
Compute King
6个月前
Benchmark投资Manus遭质疑 , 或面临“审查” 据Semafor爆料,有两位内部人士说,美财政部现在正在盯着一笔投资 —— 就是那次由硅谷投资人Benchmark Capital(也就是 Benchmark)领投的,投给中国AI新创公司Manus AI(母公司叫Butterfly Effect,注册在开曼群岛)的7500万美元。 大家最关心的是,这笔钱到底符不符合去年拜登签署的那套“出境投资安全计划”新规。新规里头说,只要美国人投向关键技术领域,比如AI,这种投资都得先向财政部报备。财政部现在让Benchmark说明一下,究竟是不是按规矩来,或者有没有啥理由能豁免。至于这事儿到底符不符合,或者能不能豁免,Benchmark和财政部都不肯多说,Manus也没回应。 回头说说Manus AI:3 月 6 日它刚以“全球第一款通用 AGENT 产品”亮相,号称能帮你筛简历、安排行程、炒股票,甚至从零开始帮你搭网站、做小游戏,有人直接说这可能是“第二个DeepSeek时刻”。早期给它投过钱的有真格基金,腾讯和红杉中国。 到了4月底,彭博他们又爆出,Benchmark领头了新一轮7500万美金的投资,把Manus的估值直接拉到接近5亿美元,涨了5倍!融来的钱打算用来把服务推到美国、日本、中东这些地方,也让Manus算是站上了“硅谷一线AI新秀”的台面。 再说说Benchmark这家VC:他们1995年搞起来的,投过eBay、Uber、Twitter、Snap这些大项目,合伙人平等,规模不太大,只投早期,是典型的小而美派。最近刚刚募集到4.25亿美元的第11号基金,重点全押在AI上。这不,这次领投Manus,硅谷风投圈都炸开锅了 —— 有人说这笔投资“太没意义”,也有人觉得这投资对中国来讲利益更大。 应付这些质疑和可能的调查,Benchmark还请了好几家美国律师事务所出主意。他们的说法主要有两点:第一,Manus自己并没搞AI模型,都是调用Anthropic的 Claude、阿里的通义千问等,实际上就是把现有模型“包装”一下;第二,Manus的母公司注册在开曼,按技术和法律上看并不算中国实体,而且团队分布在美国、新加坡、日本和中国,好像也不是单纯的中国公司。 至于Benchmark的老将Bill Gurley,他还公开反对政府这套限制,说这些限制可能适得其反,反而刺激中国AI发展。不过现在中美大战略、贸易摩擦、AI冷战的大背景下,离岸注册和VIE架构好像护不住“皮”,对算力、数据、算法的关注变得更细了,财政部后面还真可能对更多技术细节下手。 要是最后财政部真让Benchmark补申报,甚至要他们撤资,那可就不只是这家风投的事了,整个硅谷投中国元素的AI创业公司,肯定要更小心 —— 毕竟,能挺过这一关的,估计只有少数。 相关参考链接: