#Benchmark

2个月前

希望 LLM agents 也能在两年内上演AI视频的进步。 ai视频的实例 benchmark：威尔史密斯吃面。提一个agents 的实例benchmark：丢给agents 一个英文epub，它能给你返回一个中文epub。内容质量和细节上要达到出版级别，超过人类译者和出版工作者的工作质量。

#AI视频 #LLM agents #Benchmark #威尔史密斯吃面 #中文epub

2个月前

软件开发里有一种叫 TDD（Test-Driven Development）的方式，简单讲，就是先写好测试用例，然后再写程序。每写一部分代码就立刻跑对应的测试，看能不能通过。能通过说明实现符合预期，不通过就说明有 bug。TDD 的好处在于，它让整个研发过程可验证、可回归，也让开发变成一种持续的反馈循环。 AI 的发展其实也像是在做一场巨大的 TDD，只不过测试用例变成了数据集（Dataset）。每一次模型迭代，本质上就是在跑新的单测（Benchmark）。MMLU 测知识广度，GSM8K 测逻辑推理，HumanEval 测编程能力，AIME 和 MATH 则测严谨的数学推理。每个 leaderboard 都是一张 AI 世界的成绩单——DeepSeek 在数学推理上用 GSM8K 打出好成绩，Manus 则靠打榜多模态任务的数据集 GAIA 崭露头角。这些 Benchmark 像是模型进化的里程碑，每一代 AI 都得交卷。 2025 可以说是智能体（Agent）元年，模型不再只靠会算、会说来评估，而是要能动手。要让一个 Agent 真正好用，光靠写 Prompt、加检索、拼上下文是不够的，它得能使用工具，能执行 Python、Shell、SQL，能感知状态、理解任务依赖，更要能在反馈中调整自己的行为。评估 Agent 好不好用，也就不能只看单轮问答，而得看它能否完成一件真实的工作。 Anthropic 做的 SWE-bench 就是个典型例子，让 Agent 去修真实项目里的 Bug，看能否通过单测。OpenAI 的 MLE-bench 则更进一步，考察 Agent 在机器学习工程中的执行力，从读数据、清洗、编程、训练，到收集指标、分析再改进，形成一个完整的闭环。社区里还在探索更复杂的测试，比如 App-bench，看 Agent 是否能独立开发一个 Web 应用，从前端到后端再到部署上线；或者 Ops-bench，让它去处理运维任务，比如容器编排、日志分析、系统回滚。这些都在考验 Agent 的真实工程执行力。 AI 的进步，正在从“能思考”走向“能执行”。TDD 让软件工程可验证，而在 AI 世界，Dataset 和 Benchmark 是创新的发动机。Dataset 定义了模型学习的方向，Benchmark 则刻画了行业标准与竞争格局。未来的竞争，不再是谁的模型更聪明，而是谁的智能体更能干活。真正厉害的 AI，不一定语义最深、参数最多，而是那个能自己规划、自己验证、自己改进的 Agent。换句话说，AI 的未来不只是更聪明的脑子，而是更靠谱的手和脚，能想、能做、还能自己查错修正，这才是“用得上”的智能。

#AI #tdd #agent #Benchmark #智能体

2个月前

「 LLM, Personalization 」记得 GPT-5 推出的时候，就已经感觉到，LLM 发展到今天，单纯的比拼 benchmark，已不再是所有的意义。而模型如何理解用户，personalization 的能力越来越重要。这周看到两篇很好的工作 PREFDISCO 和 PDR Bench，都是跟 personalization相关。两篇论文中，Personalization 的定义已经远超风格微调。Personalization 不是换语气，而是让模型围绕用户的目标、偏好和约束来思考和行动。良好的 personalization AI 需要做到： - 建立真实的用户模型 - 调整推理和研究过程 - 同时确保输出既对齐用户又事实正确 PREFDISCO 聚焦即时个性化 reasoning ；PDR Bench 研究长周期、多来源的 deep research。前者通过互动发现偏好，后者依靠档案和语境长期规划。学到了！期待更多围绕 personalization benchmark提出的新的方法。

#LLM #Personalization #用户模型 #偏好 #Benchmark

3个月前

Kimi官方对OpenRouter上不同的供应商的 Tool Calling能力做了Benchmark，发现有些供应商提供的模型服务有较大问题。可能是推理Bug，也可能是不合理的量化。另外 1. 使用的2000条Tool Calling 测试集没有开源。 2. 可以在 OpenRouter配置中排除掉某些供应商。

#Kimi #Openrouter #tool calling #Benchmark #模型问题

3个月前

10 几年前吴京会想到他会成为测试 LLM 视频和音频以及稳定性的 benchmark 么？

#吴京 #LLM #Benchmark #测试 #视频和音频

3个月前

模型再多，正常下来每天都会用到的可能也就三五个，这其中还有高频和低频之分，真正说用得多的就那一两个。不是狂热的追星一族，或者不是从事评测工作的人，其实根本没必要一直追着那么多模型走，反正追也追不过来。以现在的井喷速度，没有任何一个AI博主或者评测机构能够把所有的模型真的全面的评测的过来。机构也不行，能做一个benchmark就已经是他们的极限了。对大多数普通人来说，等着别人用上一两周，评测得差不多了，选上口碑好的一两个，大概试一下，有了手感决定了自己的选择，就可以又沿用大概1~2个月，问题不大。

Google Gemini 2.5发布引发AI模型性价比热议· 475 条信息

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

#AI模型选择 #模型评测 #用户选择参考 #AI博主 #Benchmark

4个月前

7.7K Star ⚡️ 最好的开源 Deep Research 平台发布！ Langchain 这个 open-deep-research 效果也太好了，在全球 DeepResearch benchmark 上登顶最好的开源 SOTA 效果 🔥 开源地址 👉

#开源 #Deep Research #LangChain #SOTA #Benchmark

4个月前

好多人说 DeepSeek 不行了，但是半年多以前的 R1 依然在大多数模型发布的 benchmark 里，这不恰恰说明半年前的模型依然能打么？

深度学习模型升级引发AI能力大跃进，行业迎新变革· 143 条信息

#DeepSeek #R1模型 #Benchmark #模型评估 #技术讨论

4个月前

GPT-5 的真实体感（ChatGPT 版本，非 coding 场景）： GPT-5：和 4o 差不多 GPT-5 Thinking：和 o3 差不多总结：升了个寂寞奥特曼是会玩的。以后 benchmark 可以直接看模型价格，大概率比跑分要准。

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

#GPT-5 #性能提升不明显 #奥特曼 #模型价格 #Benchmark

7个月前

作为一个免费开源 llm，deepseek-R1 的 benchmark 分数确实吓人。

#DeepSeek-R1 #Benchmark #开源 #免费 #大型语言模型 #评分

7个月前

Benchmark投资Manus遭质疑 , 或面临“审查” 据Semafor爆料，有两位内部人士说，美财政部现在正在盯着一笔投资 —— 就是那次由硅谷投资人Benchmark Capital（也就是 Benchmark）领投的，投给中国AI新创公司Manus AI（母公司叫Butterfly Effect，注册在开曼群岛）的7500万美元。大家最关心的是，这笔钱到底符不符合去年拜登签署的那套“出境投资安全计划”新规。新规里头说，只要美国人投向关键技术领域，比如AI，这种投资都得先向财政部报备。财政部现在让Benchmark说明一下，究竟是不是按规矩来，或者有没有啥理由能豁免。至于这事儿到底符不符合，或者能不能豁免，Benchmark和财政部都不肯多说，Manus也没回应。回头说说Manus AI：3 月 6 日它刚以“全球第一款通用 AGENT 产品”亮相，号称能帮你筛简历、安排行程、炒股票，甚至从零开始帮你搭网站、做小游戏，有人直接说这可能是“第二个DeepSeek时刻”。早期给它投过钱的有真格基金，腾讯和红杉中国。到了4月底，彭博他们又爆出，Benchmark领头了新一轮7500万美金的投资，把Manus的估值直接拉到接近5亿美元，涨了5倍！融来的钱打算用来把服务推到美国、日本、中东这些地方，也让Manus算是站上了“硅谷一线AI新秀”的台面。再说说Benchmark这家VC：他们1995年搞起来的，投过eBay、Uber、Twitter、Snap这些大项目，合伙人平等，规模不太大，只投早期，是典型的小而美派。最近刚刚募集到4.25亿美元的第11号基金，重点全押在AI上。这不，这次领投Manus，硅谷风投圈都炸开锅了 —— 有人说这笔投资“太没意义”，也有人觉得这投资对中国来讲利益更大。应付这些质疑和可能的调查，Benchmark还请了好几家美国律师事务所出主意。他们的说法主要有两点：第一，Manus自己并没搞AI模型，都是调用Anthropic的 Claude、阿里的通义千问等，实际上就是把现有模型“包装”一下；第二，Manus的母公司注册在开曼，按技术和法律上看并不算中国实体，而且团队分布在美国、新加坡、日本和中国，好像也不是单纯的中国公司。至于Benchmark的老将Bill Gurley，他还公开反对政府这套限制，说这些限制可能适得其反，反而刺激中国AI发展。不过现在中美大战略、贸易摩擦、AI冷战的大背景下，离岸注册和VIE架构好像护不住“皮”，对算力、数据、算法的关注变得更细了，财政部后面还真可能对更多技术细节下手。要是最后财政部真让Benchmark补申报，甚至要他们撤资，那可就不只是这家风投的事了，整个硅谷投中国元素的AI创业公司，肯定要更小心 —— 毕竟，能挺过这一关的，估计只有少数。相关参考链接：

#Benchmark #Manus #审查 #投资 #财政部 #硅谷 #中国AI #ButterflyEffect #开曼群岛 #拜登