我之前说OpenAI>Deepseek，所以追赶OpenAI的临门一脚到底差在哪里？先说结论，我认为是超高质量的RLHF (Reinforcement Learning from Human Feedback)，也就是人类反馈 Deepseek-R1这次的训练，仅利用了rule-based outcome reward，也就是数学题答案对错/测代码能不能跑通，训练出来了超强的逻辑，在math/c

#OpenAI #DeepSeek #RLHF #Reinforcement Learning from Human Feedback #rule-based outcome reward #逻辑能力 #math/c

相关新闻

sitin

8小时前

OpenAI 官方出了一个 Claude Code 插件，叫 codex-plugin-cc，让你在 Claude Code 里直接喊 Codex 来干活。说白了就是：你用 Claude 写代码，写完让 Codex 帮你审一遍。两个 AI 看同一段代码，比一个 AI 自己审自己靠谱。三个核心用法： /codex:review — 标准代码审查，跑一遍你的改动，只看不改，给你一份报告 /

思维怪怪

3天前

塑造全球 AI 格局的，不只是技术路线之争，还有一段从未愈合的私人创伤。 WSJ 记者 Keach Hagey 发表长篇调查报道，通过对两家公司现任和前员工及高管身边人的大量采访，首次系统披露 Anthropic 与 OpenAI 创始人之间延续十年的个人恩怨。 Dario Amodei 近几个月在内部的措辞远比公开场合激烈。他将 Sam Altman 与 Elon Musk 的法律纠纷比作「

Viking

3天前

openai 的 Codex 官方文档越做越好了，简直是个金矿，最近发了一篇 Codex User Case：针对不同场景，官方总结了你应该要使用的 skills 和 plugins，对应的步骤，要使用的prompt，完全按照它的流程就能达到最佳效果，虽然现在还不是很多 case，但是也覆盖了大部分的开发和设计场景。以后用 Codex 也不用看别人的总结文章了，直接看官方文档就行。

AI Will

4天前

2/🚀 Arcline：AI做80%，律师做20% 创始人是前OpenAI和Google外部律师，律师团来自Cooley/Goodwin/Fenwick。 AI起草初稿，顶级律师审查签字，固定价格当天出活。

流浪国男

4天前

ai时代不进则退，openai和claude比墙国ai也就领先半年，我和低端码农的差距也只多刷了百十个b的token，想到这些我就睡不着，爬起来继续刷token