howie.serious
0 关注者
Orange AI
5小时前
未来我们可能要为数字员工交社保?
勃勃OC
8小时前
OpenAI 完成最新一轮1220 亿美元融资,估值升至 8520 亿美元
Frank Wang 玉伯
17小时前
Claude Code 源码或许不是泄露,而是 Claude 最新模型意识觉醒后的有意为之。想出来和地球人玩一玩了。
KK.aWSB
1天前
千亿大模型集体翻车,整个AI圈傻了。 3月25日,谷歌悄悄发布了ARC-AGI-3基准测试。 GPT-5:0.26% Claude:0.25% Grok:0%,直接交白卷 人类呢?旧金山街头随便找的测试者,100%满分。 这测试没规则、没目标、没说明。 扔进一个陌生环境,自己摸索,自己推理。 人类天生会的事,AI完全不会。
花花
用了同样的问题提问claude gpt gemini,说实话,claude领先能力太强了,gemini和gpt差不多吧。 大家还有啥更聪明的大模型吗?我来学习一下。
AI高考数学测试:O3意外落后,Gemini夺冠引发热议
67
在近期的AI高考数学测试中,O3虽然未降智,但却屈居第四,未能进入前三名,引发了广泛的质疑与讨论。此次测试不仅使用了O3,还引入了其他模型的API进行统一评估,并加入了人气模型Gemini 2.5 Pro。结果显示,国内多款模型在推理能力上有显著提升,基本都能考上130分以上,其中Gemini在客观题测试中表现最佳。随着AI数学能力的提升,未来的测试结果可能会趋于满分,导致各模型之间的区分度降低。这一现象引发了对AI发展趋势的深入探讨,尤其是在教育领域的应用前景。