KK.aWSB 0 关注者 关注 8小时前 千亿大模型集体翻车,整个AI圈傻了。 3月25日,谷歌悄悄发布了ARC-AGI-3基准测试。 GPT-5:0.26% Claude:0.25% Grok:0%,直接交白卷 人类呢?旧金山街头随便找的测试者,100%满分。 这测试没规则、没目标、没说明。 扔进一个陌生环境,自己摸索,自己推理。 人类天生会的事,AI完全不会。 #千亿大模型 #AI翻车 #ARC-AGI-3基准测试 #GPT-5 #Claude #Grok #人类智能 #AI推理能力 前往原网页查看