#编程能力

3周前

不知道为啥最近那么多人吹 GPT-5，Deep Rearch 确实有独到的地方，编程我目前真没觉得比 Claude 4.1 强的地方，尤其是 Codex，比起 Claude Code 还是要差不少。我最近特地重开了 ChatGPT Pro，codex 都是用 GPT-5 high，每次复杂一点任务都不如 Claude Code。

AI编程工具激战：Claude Code、Gemini Cli崛起· 899 条信息

#GPT-5 #Claude 4.1 #编程能力 #Deep Research #Codex

karminski-牙医

1个月前

GPT-OSS-20B 比 GPT-OSS-120B 好？还记得OpenAI的开放权重模型吗？最新的论文评估得到结论 GPT-OSS-120B 在编程方面的确不如 GPT-OSS-20B. 跟我之前测试的结论相同. 论文中指出 HumanEval 和 MMLU 这两个测试中 GPT-OSS-20B 表现均比 120B 效果好。而我自己的评测中，20B编程表现好的方面在于稳定，即基本每次生成都能得到表现一致的效果，当然不是说20B足够好，但是它如果出问题，问题也是稳定的，这样容易修改一些。而120B会在各种地方出问题。付我上次测试的结论： OSS-120B 和 20B 我觉得有点摸不到头脑, 甚至 20B 生成起来我感觉代码更稳定? OSS-120B 随机性非常大, 在这个测试里面 OSS-120B 甚至反复抽卡8次, 都没有 OSS-20B 抽卡 2 次的效果好. 这里我的猜测是 120B 每次激活专家量很少, 而总专家数量又多, 导致每 token 随机到相同专家的概率会特别小, 进而表现不是那么稳定. 而 20B 则好一些, 4/128 VS 4/32 专家. 我一会也会再测下, 看我的猜测对不对. 论文地址：

#GPT-OSS-20B #GPT-OSS-120B #模型评估 #编程能力 #稳定性

1个月前

GPT-5首测翻车？前端审美依然远不如Claude！刚试了一个GPT5的Case，前端审美还是拉胯啊，跟Claude完全没法比... 待会儿试试难点的编程Case 感觉为了编程能力和减少幻觉，牺牲了很多啊... 想用Transformer构架通往AGI，看来悬了！第一张图GPT5，第二张Claude Sonnet 4（甚至不用Opus）

#GPT-5 #Claude #前端审美 #编程能力 #AGI

3个月前

Claude Code 的强大，首先是模型的强大，Claude 4 无论是 Sonnet 还是 Opus，在编程和 Agent 能力上都很强！这是成功的基础。然后是内置工具的强大，Claude Code 内置有 18 个工具，这些工具有 Grep 检索代码的，有执行命令的，有 TODO 读写的工具，有架构分析的工具，模型借助这些工具模拟了程序员解决问题的思路：制定计划、分析问题、检索代码库找到相应的代码位置、解决问题、测试验证。另外最神奇的那个工具就是 Task 工具我反复提到过，它能给 Claude Code 开分身，执行子任务，既可以专注于子任务不受其他信息干扰，又可以避免主线任务无关上下文太多，还能有 Claude Code 一样的工具能力。再有就是不计成本，Claude Code 默认是不会压缩任何上下文信息的，每请求一次就把之前的历史会话、工具调用和返回结果都一起发过去，所以它不会遗失上下文，其他工具像 Cursor 都得抠抠塞塞压缩上下文节约成本，还限制次数，没执行几次都不跑了问你是不是要继续。还有就是 Claude Code 是 cli 命令行程序，没有 IDE 的包袱，像 Cursor 这样的 IDE，每次请求都需要考虑要把很多 IDE 的信息放到上下文中，比如打开了几个 Tabs，Tabs 的代码都是啥，当前选中的是啥代码，这些信息不提供可能损失了上下文，提供了又可能就会降低上下文相关度以及挤占上下文长度，反倒是 Claude Code 默认不需要 IDE 的上下文，自己缺什么信息就自己去用工具检索代码库或者联网查询，这样上下文都是自己想要的。

AI编程工具激战：Claude Code、Gemini Cli崛起· 899 条信息

#Claude Code #编程能力 #Agent能力 #内置工具 #Task工具

3个月前

用了一下通义灵码，确实，编程能力还凑合，符合 qwen 能用但不那么顶尖的水平。但 IDE 整体上像个半成品……还需要不少时间打磨的样子。

#通义灵码 #编程能力 #IDE #半成品

3个月前

我不推荐小朋友从小就学计算机： 1. 真心喜欢计算机的 1 年内就可以折腾出很高的水平 2. 从我 10 多年的开源社区经验看，我们和国外顶级开源项目作者的差距，不是计算机编程能力，而是想象力。国外的开源作者，会为了实现一个喜欢的功能，会研究大量的开源库，在大多数人都在纠结不可能实现的时候，他把所有开源库串联在一起实现，这条独特的开源库组合就是想象力 3. 想象力的来源不是计算机，是数学基础扎实、逻辑分析能力强、热爱生活、艺术熏陶、专注冥想，生活中爱好比较多的人，想象力越丰富 4. 一味的死磕计算机，最后只会变成刷题机器，变成视野狭隘只会和别人比较的人，因为他们不明白，世界上其他人也和他一样聪明。真正的竞争是做自己，而不是别人做出来的东西，自己也要做一遍，证明自己能

#AI编程：自学or科班？新旧码农之争· 103 条信息

#计算机教育 #开源社区 #想象力与数学 #少儿编程 #编程能力

karminski-牙医

4个月前

给大家解析一下 DeepSeek-R1-0528 的官方放出的评测数据。目前 DeepSeek-R1-0528 毫无疑问是开源模型第一了, Qwen3-235B-A22B 在热座上仅座了一个月[苦涩]. 先看图1，我们可以看到编程能力和数学能力都有巨大的提升，基本都是10%左右的提升。这是一个相当猛的结果。而大家这两天放出的测试也能看到这个新版本R1直逼 OpenAI-o3 或者 Gemini-2.5-Pro 的水平. (注意我把 CodeForces 测试分数等比缩小了100x，要不然坐标轴放不下了. 不影响展示提升比例) 具体来讲, Aider-Polyglot 测试从 53 提升到了 71 分, 这个分数比 claude-opus-4 都要高, 仅次于 Gemini-2.5-Pro, claude-opus-4-thinking, o4-mini-high 这三个都是72分。数学能力的 AIME24'25 测试均提升了10分+, 这里猜测会不会之前放出的 DeepSeek-Prover-V2 会不会也能在训练中起到不小作用然后看通用能力, MMLU 提升有限, MMLU 是个什么测试呢? 它是个涵盖了多个学科的问答选择题, 问题类似——锅包肉用什么肉? A. 猪肉, B. 羊肉, C.牛肉, D. 鸡肉 (当然实际问题是专业性问题, 比我这个难很多). 目前基础版本的 MMLU 早就被刷爆了(接近满分), 而这次两个 MMLU 的修改版测试没有什么提升, 但这并不是模型训练出现了问题, 而是也快到这两个测试的天花板了, 导致没什么区分度. 这里的区分度可以理解为十以内加减法没有办法作为高考数学题. GPQA 也类似, 但现在也有要被刷爆的趋势了. SimpleQA (这个是OpenAI的测试集) 和 Humanity's Last Exam 这两个目前还没被刷爆, 当然这两个也特别难, 我截图了 Humanity's Last Exam 的例题 (图2) 大家可以看看, 作为一个人类, 我非常有自信这个测试的 2500 道题目全都打 0 分哈哈哈哈. 最后说下总结, 我之前是略对 DeepSeek 这么久没更新有点焦虑的, 但现在来看完全没必要, 甚至只是更新了 R1 就能达到这种水平, 都不用把 R2 掏出来. 这就让大家对 R2 期待更高. 我是真心希望 R2 能有些多模态能力的. 另外题外话, 未来大模型的测试会充满困难, 甚至做出一套完善的测试题目的速度都没大模型发布得快, 现在的头部训练水平会导致新的测试和语料放出后不过几个月就会淘汰. 在我们达到 transformer 模型的理论极限之前, 想要实现AGI, 训练语料的瓶颈可能会更快达到. 所以 R2 的突破会不会是强化学习模式上的新突破, 它的自主学习会更强, 人类的监督只能用来保证模型安全. 否则人类干预完全就是训练的负因素. 让我们拭目以待. #deepseek

深度学习模型升级引发AI能力大跃进，行业迎新变革· 95 条信息

#DeepSeek-R1-0528 #开源模型 #Qwen3-235B-A22B #编程能力 #数学能力 #OpenAI-o3 #Gemini

4个月前

微软和 xAI 刚刚宣布：Grok 3 现已在 Azure AI Foundry 上线。 •Grok 3 具备先进的推理、编程和视觉能力 •由 xAI 构建，并依托微软安全的云平台 •免费预览现已上线，为期两周同时也可在 GitHub Models 上获取。

马斯克Grok再升级，4代直播发布引爆AI· 28 条信息

#微软 #XAI #Grok 3 #Azure AI Foundry #推理能力 #编程能力 #视觉能力 #云平台 #GitHub Models

5个月前

AI时代最重要的三个技能：写作、编程、英语

#AI时代 #重要技能 #写作能力 #编程能力 #英语能力

6个月前

DeepSeek 悄悄更新的 v3 模型权重，编程能力出乎意外的好强……在我测试的几个例子中，基本上都赶上 claude 3.5 sonnet了。在 deepseek 官网就能直接使用：关掉 R1，输入的 prompt 可以是“请用 html、css、js 实现一个 xxx”。

#DeepSeek #V3模型 #编程能力 #claude3.5 #技术测试 #官网使用 #提示输入 #HTML #CSS #js

7个月前

OpenAI 新论文：使用大型推理模型进行竞赛编程强化学习如何提升大语言模型在编程和推理任务中的表现核心研究发现 1️⃣ 强化学习可以显著提升 AI 编程能力！ 2️⃣ o1-ioi 通过手工优化策略，在 2024 IOI 竞赛中取得金牌水平。 3️⃣ o3（新一代 AI）完全不依赖手工优化，却比 o1-ioi 还强！ 4️⃣ o3 在 CodeForces 评分达到 2724（99.8% 百分位），接近顶级人类选手。 OpenAI比较了三种 AI 编程系统： o1：通用大语言模型（LLM），基于强化学习（RL），具备基本推理能力。 o1-ioi：个针对 2024 年国际信息学奥林匹克竞赛（IOI）设计的领域专用系统 o1-ioi（采用了手工设计的推理策略）。 o3：完全基于强化学习（RL），自动学习最优解题方法，不需要人工设计策略。我们展示了将强化学习（RL）应用于大型语言模型（LLM）可以显著提升其在复杂编程和推理任务中的表现。在 2024 年 IOI 现场比赛中，我们使用 o1-ioi 参赛，并通过人工优化的测试时（test-time）策略，在 49% 百分位取得成绩。在放宽比赛限制的情况下，o1-ioi 甚至达到了金牌水平。然而，在评估后续的 o3 模型时，我们发现它无需人工设计的推理策略或放宽比赛限制，便可直接获得 IOI 金牌。我们的研究结果表明，尽管 o1-ioi 这类专门优化的管道能带来显著提升，但更大规模的通用模型 o3 已经能够超越这些优化版本，并不依赖人工定义的推理策略。特别是，o3 在 2024 IOI 取得金牌，并在 CodeForces 编程竞赛中获得与人类顶级选手相当的评分。 📢 结果表明，AI 编程不再需要手工优化，与其依赖特定领域的优化策略，更有效的路径是扩展通用的强化学习技术，以实现最先进的 AI 竞赛编程能力。

#OpenAI #大型推理模型 #强化学习 #编程能力 #人工智能 #竞赛编程 #IOI竞赛 #CodeForces #新一代AI

7个月前

测试了OpenAI新发布的o3-mini，其编程能力之强真的是可以用“恐怖”来形容。不多说了，看视频吧。 prompt：生成一个swiftUI视图，其中包括一个组件，组件实现了一个圆球在一个超立方体中弹跳。如果是用js、python来做还没有那么吓人。

#OpenAI #o3-mini #编程能力 #SwiftUI #组件 #圆球弹跳 #超立方体 #js #Python