#AI翻车

9小时前

千亿大模型集体翻车，整个AI圈傻了。 3月25日，谷歌悄悄发布了ARC-AGI-3基准测试。 GPT-5：0.26% Claude：0.25% Grok：0%，直接交白卷人类呢？旧金山街头随便找的测试者，100%满分。这测试没规则、没目标、没说明。扔进一个陌生环境，自己摸索，自己推理。人类天生会的事，AI完全不会。

#千亿大模型 #AI翻车 #ARC-AGI-3基准测试 #GPT-5 #Claude #Grok #人类智能 #AI推理能力