时政
财经
科技
虚拟货币
其他
登录
#Benchmark
关注
howie.serious
2周前
希望 LLM agents 也能在两年内上演AI视频的进步。 ai视频的实例 benchmark:威尔史密斯吃面。 提一个agents 的实例benchmark:丢给agents 一个英文epub,它能给你返回一个中文epub。内容质量和细节上要达到出版级别,超过人类译者和出版工作者的工作质量。
#AI视频
#LLM agents
#Benchmark
#威尔史密斯吃面
#中文epub
分享
评论 0
0
Barret李靖
1个月前
软件开发里有一种叫 TDD(Test-Driven Development)的方式,简单讲,就是先写好测试用例,然后再写程序。每写一部分代码就立刻跑对应的测试,看能不能通过。能通过说明实现符合预期,不通过就说明有 bug。TDD 的好处在于,它让整个研发过程可验证、可回归,也让开发变成一种持续的反馈循环。 AI 的发展其实也像是在做一场巨大的 TDD,只不过测试用例变成了数据集(Dataset)。每一次模型迭代,本质上就是在跑新的单测(Benchmark)。MMLU 测知识广度,GSM8K 测逻辑推理,HumanEval 测编程能力,AIME 和 MATH 则测严谨的数学推理。每个 leaderboard 都是一张 AI 世界的成绩单——DeepSeek 在数学推理上用 GSM8K 打出好成绩,Manus 则靠打榜多模态任务的数据集 GAIA 崭露头角。这些 Benchmark 像是模型进化的里程碑,每一代 AI 都得交卷。 2025 可以说是智能体(Agent)元年,模型不再只靠会算、会说来评估,而是要能动手。要让一个 Agent 真正好用,光靠写 Prompt、加检索、拼上下文是不够的,它得能使用工具,能执行 Python、Shell、SQL,能感知状态、理解任务依赖,更要能在反馈中调整自己的行为。评估 Agent 好不好用,也就不能只看单轮问答,而得看它能否完成一件真实的工作。 Anthropic 做的 SWE-bench 就是个典型例子,让 Agent 去修真实项目里的 Bug,看能否通过单测。OpenAI 的 MLE-bench 则更进一步,考察 Agent 在机器学习工程中的执行力,从读数据、清洗、编程、训练,到收集指标、分析再改进,形成一个完整的闭环。社区里还在探索更复杂的测试,比如 App-bench,看 Agent 是否能独立开发一个 Web 应用,从前端到后端再到部署上线;或者 Ops-bench,让它去处理运维任务,比如容器编排、日志分析、系统回滚。这些都在考验 Agent 的真实工程执行力。 AI 的进步,正在从“能思考”走向“能执行”。TDD 让软件工程可验证,而在 AI 世界,Dataset 和 Benchmark 是创新的发动机。Dataset 定义了模型学习的方向,Benchmark 则刻画了行业标准与竞争格局。 未来的竞争,不再是谁的模型更聪明,而是谁的智能体更能干活。真正厉害的 AI,不一定语义最深、参数最多,而是那个能自己规划、自己验证、自己改进的 Agent。换句话说,AI 的未来不只是更聪明的脑子,而是更靠谱的手和脚,能想、能做、还能自己查错修正,这才是“用得上”的智能。
#AI
#tdd
#agent
#Benchmark
#智能体
分享
评论 0
0
马东锡 NLP
1个月前
「 LLM, Personalization 」 记得 GPT-5 推出的时候,就已经感觉到,LLM 发展到今天,单纯的比拼 benchmark,已不再是所有的意义。而 模型如何理解用户,personalization 的能力越来越重要。 这周看到两篇很好的工作 PREFDISCO 和 PDR Bench,都是跟 personalization相关。 两篇论文中,Personalization 的定义已经远超风格微调。Personalization 不是换语气,而是让模型围绕用户的目标、偏好和约束来思考和行动。 良好的 personalization AI 需要做到: - 建立真实的用户模型 - 调整推理和研究过程 - 同时确保输出既对齐用户又事实正确 PREFDISCO 聚焦即时个性化 reasoning ;PDR Bench 研究长周期、多来源的 deep research。前者通过互动发现偏好,后者依靠档案和语境长期规划。 学到了! 期待更多围绕 personalization benchmark提出的新的方法。
#LLM
#Personalization
#用户模型
#偏好
#Benchmark
分享
评论 0
0
九原客
1个月前
Kimi官方对OpenRouter上不同的供应商的 Tool Calling能力做了Benchmark,发现有些供应商提供的模型服务有较大问题。 可能是推理Bug,也可能是不合理的量化。 另外 1. 使用的2000条Tool Calling 测试集没有开源。 2. 可以在 OpenRouter配置中排除掉某些供应商。
#Kimi
#Openrouter
#tool calling
#Benchmark
#模型问题
分享
评论 0
0
yihong0618
2个月前
10 几年前吴京会想到他会成为测试 LLM 视频和音频以及稳定性的 benchmark 么?
#吴京
#LLM
#Benchmark
#测试
#视频和音频
分享
评论 0
0
wwwgoubuli
2个月前
模型再多,正常下来 每天都会用到的 可能也就三五个,这其中还有高频和低频之分,真正说用得多的就那一两个。 不是狂热的追星一族,或者不是从事评测工作的人,其实根本没必要一直追着那么多模型走,反正追也追不过来。 以现在的井喷速度,没有任何一个AI博主或者评测机构能够把所有的模型真的全面的评测的过来。 机构也不行,能做一个benchmark就已经是他们的极限了。 对大多数普通人来说,等着别人用上一两周,评测得差不多了,选上口碑好的一两个,大概试一下,有了手感决定了自己的选择,就可以又沿用大概1~2个月,问题不大。
Google Gemini 2.5发布引发AI模型性价比热议· 282 条信息
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 657 条信息
#AI模型选择
#模型评测
#用户选择参考
#AI博主
#Benchmark
分享
评论 0
0
Tom Huang
3个月前
7.7K Star ⚡️ 最好的开源 Deep Research 平台发布! Langchain 这个 open-deep-research 效果也太好了,在全球 DeepResearch benchmark 上登顶最好的开源 SOTA 效果 🔥 开源地址 👉
#开源
#Deep Research
#LangChain
#SOTA
#Benchmark
分享
评论 0
0
yihong0618
3个月前
好多人说 DeepSeek 不行了,但是半年多以前的 R1 依然在大多数模型发布的 benchmark 里,这不恰恰说明半年前的模型依然能打么?
深度学习模型升级引发AI能力大跃进,行业迎新变革· 133 条信息
#DeepSeek
#R1模型
#Benchmark
#模型评估
#技术讨论
分享
评论 0
0
jiayuan
3个月前
GPT-5 的真实体感(ChatGPT 版本,非 coding 场景): GPT-5:和 4o 差不多 GPT-5 Thinking:和 o3 差不多 总结:升了个寂寞 奥特曼是会玩的。以后 benchmark 可以直接看模型价格,大概率比跑分要准。
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 657 条信息
#GPT-5
#性能提升不明显
#奥特曼
#模型价格
#Benchmark
分享
评论 0
0
howie.serious
5个月前
作为一个免费开源 llm,deepseek-R1 的 benchmark 分数确实吓人。
#DeepSeek-R1
#Benchmark
#开源
#免费
#大型语言模型
#评分
分享
评论 0
0
Compute King
6个月前
Benchmark投资Manus遭质疑 , 或面临“审查” 据Semafor爆料,有两位内部人士说,美财政部现在正在盯着一笔投资 —— 就是那次由硅谷投资人Benchmark Capital(也就是 Benchmark)领投的,投给中国AI新创公司Manus AI(母公司叫Butterfly Effect,注册在开曼群岛)的7500万美元。 大家最关心的是,这笔钱到底符不符合去年拜登签署的那套“出境投资安全计划”新规。新规里头说,只要美国人投向关键技术领域,比如AI,这种投资都得先向财政部报备。财政部现在让Benchmark说明一下,究竟是不是按规矩来,或者有没有啥理由能豁免。至于这事儿到底符不符合,或者能不能豁免,Benchmark和财政部都不肯多说,Manus也没回应。 回头说说Manus AI:3 月 6 日它刚以“全球第一款通用 AGENT 产品”亮相,号称能帮你筛简历、安排行程、炒股票,甚至从零开始帮你搭网站、做小游戏,有人直接说这可能是“第二个DeepSeek时刻”。早期给它投过钱的有真格基金,腾讯和红杉中国。 到了4月底,彭博他们又爆出,Benchmark领头了新一轮7500万美金的投资,把Manus的估值直接拉到接近5亿美元,涨了5倍!融来的钱打算用来把服务推到美国、日本、中东这些地方,也让Manus算是站上了“硅谷一线AI新秀”的台面。 再说说Benchmark这家VC:他们1995年搞起来的,投过eBay、Uber、Twitter、Snap这些大项目,合伙人平等,规模不太大,只投早期,是典型的小而美派。最近刚刚募集到4.25亿美元的第11号基金,重点全押在AI上。这不,这次领投Manus,硅谷风投圈都炸开锅了 —— 有人说这笔投资“太没意义”,也有人觉得这投资对中国来讲利益更大。 应付这些质疑和可能的调查,Benchmark还请了好几家美国律师事务所出主意。他们的说法主要有两点:第一,Manus自己并没搞AI模型,都是调用Anthropic的 Claude、阿里的通义千问等,实际上就是把现有模型“包装”一下;第二,Manus的母公司注册在开曼,按技术和法律上看并不算中国实体,而且团队分布在美国、新加坡、日本和中国,好像也不是单纯的中国公司。 至于Benchmark的老将Bill Gurley,他还公开反对政府这套限制,说这些限制可能适得其反,反而刺激中国AI发展。不过现在中美大战略、贸易摩擦、AI冷战的大背景下,离岸注册和VIE架构好像护不住“皮”,对算力、数据、算法的关注变得更细了,财政部后面还真可能对更多技术细节下手。 要是最后财政部真让Benchmark补申报,甚至要他们撤资,那可就不只是这家风投的事了,整个硅谷投中国元素的AI创业公司,肯定要更小心 —— 毕竟,能挺过这一关的,估计只有少数。 相关参考链接:
#Benchmark
#Manus
#审查
#投资
#财政部
#硅谷
#中国AI
#ButterflyEffect
#开曼群岛
#拜登
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞