时政

财经

科技

#基准测试

2025-05-28 08:48:11

红杉中国推出了ai agent的基准测试平台 xbench。目前o3在4项测试中全部排名第1，断档式领先。对于这种新事物，我就不装“万事通”了：大家都是第一次听说，我刚在logseq里面新建了名为“xbench”的笔记，自己转述信息的质量不高，意义不大。请看来自o3的详细且全面介绍🤣

#红杉中国 #XBench #o3

2025-02-28 08:05:37

GPT 4.5 终于发布了，Scaling Law 撞墙说的就是它？预训练的计算量是 GPT4 的10倍，但是基准测试只比 4o 好 5% Devin 的代码测试超过了 Claude 3.5，但是不如 Claude 3.7 国外网友在吹写作，但是也有人发现不如 DeepSeek R1 输入75美元，输出150美元/百万token，是其他模型的10-100倍。又贵，又慢，又不够好非常尴尬

#GPT4.5发布 #ScalingLaw #基准测试

2025-01-24 04:40:33

今天在匿名职场社区teamblind上的一个meta员工发的匿名帖子特别火：《Meta genai org in panic mode》 Meta 的生成式 AI 团队陷入了恐慌状态。这一切的开端是 DeepSeek V3 的推出，这让 Llama 4 在各项基准测试中全面落后。更让人雪上加霜的是，一家“未知的中国公司”用仅 550 万美元的预算完成了训练，直接打脸了现有的大型模型。目前
#Meta #生成式AI #DeepSeekV3

2025-01-06 02:30:51

2024 年被AI击败的 5 个基准测试
#AI #基准测试 #2024年

没有更多了 🤐