千亿大模型集体翻车，整个AI圈傻了。 3月25日，谷歌悄悄发布了ARC-AGI-3基准测试。 GPT-5：0.26% Claude：0.25% Grok：0%，直接交白卷人类呢？旧金山街头随便找的测试者，100%满分。这测试没规则、没目标、没说明。扔进一个陌生环境，自己摸索，自己推理。人类天生会的事，AI完全不会。

#千亿大模型 #AI翻车 #ARC-AGI-3基准测试 #GPT-5 #Claude #Grok #人类智能 #AI推理能力

李狗蛋3.0 🔆

2小时前

今天Claude 是不是毛病了？我修复了五个脚本，优化了2个脚本状态，就用了 10% ？卧槽之前我的Models 一星期才用不到8% 还天天写网页

Michael Anti

2小时前

Claude现在用起来，如果要接Opus 4.6，真的有点吃不起，特别是你只要一/resume，就炸。

Trader米哥 🚀

4小时前

grok 新玩法，给人穿上这个

花花

13小时前

用了同样的问题提问claude gpt gemini，说实话，claude领先能力太强了，gemini和gpt差不多吧。大家还有啥更聪明的大模型吗？我来学习一下。

图拉鼎

18小时前

和的 Grok 居然不是使用一个额度的，前者说我额度用完了，但是回到 X 还能问。不知道是 Bug 还是 Feature。