#编程能力

宝玉
3个月前
Claude Code 的强大,首先是模型的强大,Claude 4 无论是 Sonnet 还是 Opus,在编程和 Agent 能力上都很强!这是成功的基础。 然后是内置工具的强大,Claude Code 内置有 18 个工具,这些工具有 Grep 检索代码的,有执行命令的,有 TODO 读写的工具,有架构分析的工具,模型借助这些工具模拟了程序员解决问题的思路:制定计划、分析问题、检索代码库找到相应的代码位置、解决问题、测试验证。 另外最神奇的那个工具就是 Task 工具我反复提到过,它能给 Claude Code 开分身,执行子任务,既可以专注于子任务不受其他信息干扰,又可以避免主线任务无关上下文太多,还能有 Claude Code 一样的工具能力。 再有就是不计成本,Claude Code 默认是不会压缩任何上下文信息的,每请求一次就把之前的历史会话、工具调用和返回结果都一起发过去,所以它不会遗失上下文,其他工具像 Cursor 都得抠抠塞塞压缩上下文节约成本,还限制次数,没执行几次都不跑了问你是不是要继续。 还有就是 Claude Code 是 cli 命令行程序,没有 IDE 的包袱,像 Cursor 这样的 IDE,每次请求都需要考虑要把很多 IDE 的信息放到上下文中,比如打开了几个 Tabs,Tabs 的代码都是啥,当前选中的是啥代码,这些信息不提供可能损失了上下文,提供了又可能就会降低上下文相关度以及挤占上下文长度,反倒是 Claude Code 默认不需要 IDE 的上下文,自己缺什么信息就自己去用工具检索代码库或者联网查询,这样上下文都是自己想要的。
给大家解析一下 DeepSeek-R1-0528 的官方放出的评测数据。目前 DeepSeek-R1-0528 毫无疑问是开源模型第一了, Qwen3-235B-A22B 在热座上仅座了一个月[苦涩]. 先看图1,我们可以看到编程能力和数学能力都有巨大的提升,基本都是10%左右的提升。这是一个相当猛的结果。而大家这两天放出的测试也能看到这个新版本R1直逼 OpenAI-o3 或者 Gemini-2.5-Pro 的水平. (注意我把 CodeForces 测试分数等比缩小了100x,要不然坐标轴放不下了. 不影响展示提升比例) 具体来讲, Aider-Polyglot 测试从 53 提升到了 71 分, 这个分数比 claude-opus-4 都要高, 仅次于 Gemini-2.5-Pro, claude-opus-4-thinking, o4-mini-high 这三个都是72分。 数学能力的 AIME24'25 测试均提升了10分+, 这里猜测会不会之前放出的 DeepSeek-Prover-V2 会不会也能在训练中起到不小作用 然后看通用能力, MMLU 提升有限, MMLU 是个什么测试呢? 它是个涵盖了多个学科的问答选择题, 问题类似——锅包肉用什么肉? A. 猪肉, B. 羊肉, C.牛肉, D. 鸡肉 (当然实际问题是专业性问题, 比我这个难很多). 目前基础版本的 MMLU 早就被刷爆了(接近满分), 而这次两个 MMLU 的修改版测试没有什么提升, 但这并不是模型训练出现了问题, 而是也快到这两个测试的天花板了, 导致没什么区分度. 这里的区分度可以理解为十以内加减法没有办法作为高考数学题. GPQA 也类似, 但现在也有要被刷爆的趋势了. SimpleQA (这个是OpenAI的测试集) 和 Humanity's Last Exam 这两个目前还没被刷爆, 当然这两个也特别难, 我截图了 Humanity's Last Exam 的例题 (图2) 大家可以看看, 作为一个人类, 我非常有自信这个测试的 2500 道题目全都打 0 分哈哈哈哈. 最后说下总结, 我之前是略对 DeepSeek 这么久没更新有点焦虑的, 但现在来看完全没必要, 甚至只是更新了 R1 就能达到这种水平, 都不用把 R2 掏出来. 这就让大家对 R2 期待更高. 我是真心希望 R2 能有些多模态能力的. 另外题外话, 未来大模型的测试会充满困难, 甚至做出一套完善的测试题目的速度都没大模型发布得快, 现在的头部训练水平会导致新的测试和语料放出后不过几个月就会淘汰. 在我们达到 transformer 模型的理论极限之前, 想要实现AGI, 训练语料的瓶颈可能会更快达到. 所以 R2 的突破会不会是强化学习模式上的新突破, 它的自主学习会更强, 人类的监督只能用来保证模型安全. 否则人类干预完全就是训练的负因素. 让我们拭目以待. #deepseek
小互
7个月前
OpenAI 新论文:使用大型推理模型进行竞赛编程 强化学习如何提升大语言模型在编程和推理任务中的表现 核心研究发现 1️⃣ 强化学习可以显著提升 AI 编程能力! 2️⃣ o1-ioi 通过手工优化策略,在 2024 IOI 竞赛中取得 金牌水平。 3️⃣ o3(新一代 AI)完全不依赖手工优化,却比 o1-ioi 还强! 4️⃣ o3 在 CodeForces 评分 达到 2724(99.8% 百分位),接近顶级人类选手。 OpenAI比较了三种 AI 编程系统: o1:通用大语言模型(LLM),基于强化学习(RL),具备基本推理能力。 o1-ioi:个针对 2024 年国际信息学奥林匹克竞赛(IOI) 设计的领域专用系统 o1-ioi(采用了手工设计的推理策略)。 o3:完全基于强化学习(RL),自动学习最优解题方法,不需要人工设计策略。我们展示了将强化学习(RL)应用于大型语言模型(LLM)可以显著提升其在复杂编程和推理任务中的表现。 在 2024 年 IOI 现场比赛中,我们使用 o1-ioi 参赛,并通过人工优化的测试时(test-time)策略,在 49% 百分位取得成绩。在放宽比赛限制的情况下,o1-ioi 甚至达到了金牌水平。 然而,在评估后续的 o3 模型时,我们发现它无需人工设计的推理策略或放宽比赛限制,便可直接获得 IOI 金牌。 我们的研究结果表明,尽管 o1-ioi 这类专门优化的管道能带来显著提升,但 更大规模的通用模型 o3 已经能够超越这些优化版本,并不依赖人工定义的推理策略。 特别是,o3 在 2024 IOI 取得金牌,并在 CodeForces 编程竞赛中获得与人类顶级选手相当的评分。 📢 结果表明,AI 编程不再需要手工优化,与其依赖特定领域的优化策略,更有效的路径是扩展通用的强化学习技术,以实现最先进的 AI 竞赛编程能力。