search icon
小互

小互

OpenAI 新论文:使用大型推理模型进行竞赛编程 强化学习如何提升大语言模型在编程和推理任务中的表现 核心研究发现 1️⃣ 强化学习可以显著提升 AI 编程能力! 2️⃣ o1-ioi 通过手工优化策略,在 2024 IOI 竞赛中取得 金牌水平。 3️⃣ o3(新一代 AI)完全不依赖手工优化,却比 o1-ioi 还强! 4️⃣ o3 在 CodeForces 评分 达到 2724(99.8% 百分位),接近顶级人类选手。 OpenAI比较了三种 AI 编程系统: o1:通用大语言模型(LLM),基于强化学习(RL),具备基本推理能力。 o1-ioi:个针对 2024 年国际信息学奥林匹克竞赛(IOI) 设计的领域专用系统 o1-ioi(采用了手工设计的推理策略)。 o3:完全基于强化学习(RL),自动学习最优解题方法,不需要人工设计策略。我们展示了将强化学习(RL)应用于大型语言模型(LLM)可以显著提升其在复杂编程和推理任务中的表现。 在 2024 年 IOI 现场比赛中,我们使用 o1-ioi 参赛,并通过人工优化的测试时(test-time)策略,在 49% 百分位取得成绩。在放宽比赛限制的情况下,o1-ioi 甚至达到了金牌水平。 然而,在评估后续的 o3 模型时,我们发现它无需人工设计的推理策略或放宽比赛限制,便可直接获得 IOI 金牌。 我们的研究结果表明,尽管 o1-ioi 这类专门优化的管道能带来显著提升,但 更大规模的通用模型 o3 已经能够超越这些优化版本,并不依赖人工定义的推理策略。 特别是,o3 在 2024 IOI 取得金牌,并在 CodeForces 编程竞赛中获得与人类顶级选手相当的评分。 📢 结果表明,AI 编程不再需要手工优化,与其依赖特定领域的优化策略,更有效的路径是扩展通用的强化学习技术,以实现最先进的 AI 竞赛编程能力。

0/200

评论 0

暂无更多评论