GPT-5-Codex 确实不错，对于复杂任务明显运行时间更长结果更好

#GPT-5-Codex #复杂任务 #运行时间长 #结果更好

相关新闻

Ironben

6天前

不知道模型怎么选，看看 AMP的选择 AMP 在统一调度多种模型完成复杂任务方面算顶尖专家了。可做参考。

indigo

2周前

Claude 最近上新频繁！今天 Max、Team & Enterprise 的 Claude Code 默认支持了 1M 的上下文。如图 Opus 4.6 和 Sonnet 4.6 在整个 1M 窗口内的准确率明显高于 GPT 5.4 和 Gemini 3.1 Pro。一个模型上下文的准确性和检索力，决定了其完成复杂任务的质量，Context 就是模型在应用层面的“持续学习”✨

Viking

5个月前

Vercel 推出了一个大模型在真实项目中的测试：现在只有 Next.js 的一系列的总共五十个测试，完成一系列的功能，参考指标包括成功率，平均耗时，Token 使用等等。非常有趣，排名第一的是 gpt-5-codex 后面有 claude-opus-4.1 glm-4.6 grok-4-fast-reasoning 等等也确实反应了一些真实工作中的场景。很有参考性，大家可以看看。

迈克 Mike Chong

5个月前

OpenAI GPT-5-Codex 似乎刚部署了一个小更新。所有 agent 的 flow 都断了。我怀疑是为了 counter 下周 Gemini 3 发布做准备

Larry & Leo Bro - Eagle of Full Stack

5个月前

我对 gpt-5-codex 的评价，我是个很含蓄的人，但不得不表扬他！确实很靠谱。用的挺放心。

关联事件

OpenAI GPT-5发布引发用户不满，阿尔特曼回应质疑

158

OpenAI近日发布了备受期待的AI模型GPT-5，CEO Sam Altman称其在编码和写作等领域具备“博士级”能力。然而，用户对新模型的表现感到失望，认为其回答质量不如预期，甚至有评论称其“平淡、千篇一律”。在用户反馈的压力下，OpenAI被迫重新推出旧版本GPT-4o，以满足用户需求。Altman承认，突然弃用旧模型可能是错误的，同时也提到AI情感陪伴的潜在风险，强调商业公司在提供产品时应考虑用户的长期需求。此次发布的波折引发了广泛讨论，影响了OpenAI的声誉和用户信任。