ginobefun 0 关注者 关注 1天前 我认为这次分享最核心且反共识的观点可以归结为一句话:衡量 AI 进步的真正尺度,不是模型本身有多强大,而是我们度量它的那把“尺子”有多精准。 长期以来,社区痴迷于模型参数量、架构创新和基准测试跑分,但 OpenAI 用亲身经历告诉我们,当旧的尺子已经无法反映真实能力时,整个领域的进步方向就会变得模糊。他们发现,“模型得分已经接近 100%,然而……仍然无法完成真实世界工作”,这暴露了旧尺子的失 #AI评估体系 #GDP Eval #OpenAI #真实世界价值 #模型进步 前往原网页查看