时政
财经
科技
虚拟货币
其他
登录
#Benchmark
关注
九原客
6天前
Kimi官方对OpenRouter上不同的供应商的 Tool Calling能力做了Benchmark,发现有些供应商提供的模型服务有较大问题。 可能是推理Bug,也可能是不合理的量化。 另外 1. 使用的2000条Tool Calling 测试集没有开源。 2. 可以在 OpenRouter配置中排除掉某些供应商。
#Kimi
#Openrouter
#tool calling
#Benchmark
#模型问题
分享
评论 0
0
yihong0618
2周前
10 几年前吴京会想到他会成为测试 LLM 视频和音频以及稳定性的 benchmark 么?
#吴京
#LLM
#Benchmark
#测试
#视频和音频
分享
评论 0
0
wwwgoubuli
2周前
模型再多,正常下来 每天都会用到的 可能也就三五个,这其中还有高频和低频之分,真正说用得多的就那一两个。 不是狂热的追星一族,或者不是从事评测工作的人,其实根本没必要一直追着那么多模型走,反正追也追不过来。 以现在的井喷速度,没有任何一个AI博主或者评测机构能够把所有的模型真的全面的评测的过来。 机构也不行,能做一个benchmark就已经是他们的极限了。 对大多数普通人来说,等着别人用上一两周,评测得差不多了,选上口碑好的一两个,大概试一下,有了手感决定了自己的选择,就可以又沿用大概1~2个月,问题不大。
Google Gemini 2.5发布引发AI模型性价比热议· 202 条信息
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 522 条信息
#AI模型选择
#模型评测
#用户选择参考
#AI博主
#Benchmark
分享
评论 0
0
Tom Huang
1个月前
7.7K Star ⚡️ 最好的开源 Deep Research 平台发布! Langchain 这个 open-deep-research 效果也太好了,在全球 DeepResearch benchmark 上登顶最好的开源 SOTA 效果 🔥 开源地址 👉
#开源
#Deep Research
#LangChain
#SOTA
#Benchmark
分享
评论 0
0
yihong0618
1个月前
好多人说 DeepSeek 不行了,但是半年多以前的 R1 依然在大多数模型发布的 benchmark 里,这不恰恰说明半年前的模型依然能打么?
深度学习模型升级引发AI能力大跃进,行业迎新变革· 96 条信息
#DeepSeek
#R1模型
#Benchmark
#模型评估
#技术讨论
分享
评论 0
0
jiayuan
1个月前
GPT-5 的真实体感(ChatGPT 版本,非 coding 场景): GPT-5:和 4o 差不多 GPT-5 Thinking:和 o3 差不多 总结:升了个寂寞 奥特曼是会玩的。以后 benchmark 可以直接看模型价格,大概率比跑分要准。
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 522 条信息
#GPT-5
#性能提升不明显
#奥特曼
#模型价格
#Benchmark
分享
评论 0
0
howie.serious
4个月前
作为一个免费开源 llm,deepseek-R1 的 benchmark 分数确实吓人。
#DeepSeek-R1
#Benchmark
#开源
#免费
#大型语言模型
#评分
分享
评论 0
0
Compute King
4个月前
Benchmark投资Manus遭质疑 , 或面临“审查” 据Semafor爆料,有两位内部人士说,美财政部现在正在盯着一笔投资 —— 就是那次由硅谷投资人Benchmark Capital(也就是 Benchmark)领投的,投给中国AI新创公司Manus AI(母公司叫Butterfly Effect,注册在开曼群岛)的7500万美元。 大家最关心的是,这笔钱到底符不符合去年拜登签署的那套“出境投资安全计划”新规。新规里头说,只要美国人投向关键技术领域,比如AI,这种投资都得先向财政部报备。财政部现在让Benchmark说明一下,究竟是不是按规矩来,或者有没有啥理由能豁免。至于这事儿到底符不符合,或者能不能豁免,Benchmark和财政部都不肯多说,Manus也没回应。 回头说说Manus AI:3 月 6 日它刚以“全球第一款通用 AGENT 产品”亮相,号称能帮你筛简历、安排行程、炒股票,甚至从零开始帮你搭网站、做小游戏,有人直接说这可能是“第二个DeepSeek时刻”。早期给它投过钱的有真格基金,腾讯和红杉中国。 到了4月底,彭博他们又爆出,Benchmark领头了新一轮7500万美金的投资,把Manus的估值直接拉到接近5亿美元,涨了5倍!融来的钱打算用来把服务推到美国、日本、中东这些地方,也让Manus算是站上了“硅谷一线AI新秀”的台面。 再说说Benchmark这家VC:他们1995年搞起来的,投过eBay、Uber、Twitter、Snap这些大项目,合伙人平等,规模不太大,只投早期,是典型的小而美派。最近刚刚募集到4.25亿美元的第11号基金,重点全押在AI上。这不,这次领投Manus,硅谷风投圈都炸开锅了 —— 有人说这笔投资“太没意义”,也有人觉得这投资对中国来讲利益更大。 应付这些质疑和可能的调查,Benchmark还请了好几家美国律师事务所出主意。他们的说法主要有两点:第一,Manus自己并没搞AI模型,都是调用Anthropic的 Claude、阿里的通义千问等,实际上就是把现有模型“包装”一下;第二,Manus的母公司注册在开曼,按技术和法律上看并不算中国实体,而且团队分布在美国、新加坡、日本和中国,好像也不是单纯的中国公司。 至于Benchmark的老将Bill Gurley,他还公开反对政府这套限制,说这些限制可能适得其反,反而刺激中国AI发展。不过现在中美大战略、贸易摩擦、AI冷战的大背景下,离岸注册和VIE架构好像护不住“皮”,对算力、数据、算法的关注变得更细了,财政部后面还真可能对更多技术细节下手。 要是最后财政部真让Benchmark补申报,甚至要他们撤资,那可就不只是这家风投的事了,整个硅谷投中国元素的AI创业公司,肯定要更小心 —— 毕竟,能挺过这一关的,估计只有少数。 相关参考链接:
#Benchmark
#Manus
#审查
#投资
#财政部
#硅谷
#中国AI
#ButterflyEffect
#开曼群岛
#拜登
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞