我认为这次分享最核心且反共识的观点可以归结为一句话：衡量 AI 进步的真正尺度，不是模型本身有多强大，而是我们度量它的那把“尺子”有多精准。长期以来，社区痴迷于模型参数量、架构创新和基准测试跑分，但 OpenAI 用亲身经历告诉我们，当旧的尺子已经无法反映真实能力时，整个领域的进步方向就会变得模糊。他们发现，“模型得分已经接近 100%，然而……仍然无法完成真实世界工作”，这暴露了旧尺子的失

#AI评估体系 #GDP Eval #OpenAI #真实世界价值 #模型进步

相关新闻

kevinzhow

2个月前

感觉 OpenAI 终究还是得做个自己的 Code IDE，目前 Codex 在第三方里都用起来不舒服

Luo说不啰嗦

2个月前

之前我在脸书上的一个 73 万人的 AI 社群被封了，原因是 OpenAI 发来律师函要求下架赠送 Sora 2 邀请码的帖子，说涉嫌侵权。我不服，跟他们硬刚，耗时近一个月，终于给申诉回来了。

Geek

2个月前

对 New API 审美疲劳了试试 AxonHub 一个 AI 万能插座(网关)，提供统一 API，兼容 OpenAI 与 Anthropic 格式，支持自动故障转移、细粒度权限控制、模型映射、参数覆盖及多种部署方式。

勃勃OC

2个月前

OpenAI 在 2025 年第三季度录得 150 亿美元的季度亏损，较 2024 年第三季度的 25 亿美元亏损增长了 490%。虽然这些数据尚未对外公开披露，但可以根据该公司向美国证券交易委员会（SEC）提交的文件推算得出。

看不懂的sol

2个月前

为了兄弟们更加清楚的了解美股巨头的AI 叙事玩法，特意制作此图。说实话，AI 巨头们的 “闭环互喂局”，这玩法真TMD刺激！英伟达拟投 OpenAI 千亿美元 → OpenAI 五年向甲骨文买 3000 亿算力 → 甲骨文再向英伟达狂购 GB200 → 钱又回到英伟达。微软已投 OpenAI 超 130 亿美元 → OpenAI 用这笔钱买 Azure（底层英伟达 GPU）→ 英伟达再