时政
财经
科技
登录
#编程能力
关注
Xiaowen
2周前
用了一下通义灵码,确实,编程能力还凑合,符合 qwen 能用但不那么顶尖的水平。 但 IDE 整体上像个半成品……还需要不少时间打磨的样子。
#通义灵码
#编程能力
#IDE
#半成品
分享
评论 0
0
Andy Stewart
3周前
我不推荐小朋友从小就学计算机: 1. 真心喜欢计算机的 1 年内就可以折腾出很高的水平 2. 从我 10 多年的开源社区经验看,我们和国外顶级开源项目作者的差距,不是计算机编程能力,而是想象力。国外的开源作者,会为了实现一个喜欢的功能,会研究大量的开源库,在大多数人都在纠结不可能实现的时候,他把所有开源库串联在一起实现,这条独特的开源库组合就是想象力 3. 想象力的来源不是计算机,是数学基础扎实、逻辑分析能力强、热爱生活、艺术熏陶、专注冥想,生活中爱好比较多的人,想象力越丰富 4. 一味的死磕计算机,最后只会变成刷题机器,变成视野狭隘只会和别人比较的人,因为他们不明白,世界上其他人也和他一样聪明。真正的竞争是做自己,而不是别人做出来的东西,自己也要做一遍,证明自己能
#AI时代,少儿编程是蜜糖还是砒霜?· 8 条信息
#计算机教育
#开源社区
#想象力与数学
#少儿编程
#编程能力
分享
评论 0
0
karminski-牙医
1个月前
给大家解析一下 DeepSeek-R1-0528 的官方放出的评测数据。目前 DeepSeek-R1-0528 毫无疑问是开源模型第一了, Qwen3-235B-A22B 在热座上仅座了一个月[苦涩]. 先看图1,我们可以看到编程能力和数学能力都有巨大的提升,基本都是10%左右的提升。这是一个相当猛的结果。而大家这两天放出的测试也能看到这个新版本R1直逼 OpenAI-o3 或者 Gemini-2.5-Pro 的水平. (注意我把 CodeForces 测试分数等比缩小了100x,要不然坐标轴放不下了. 不影响展示提升比例) 具体来讲, Aider-Polyglot 测试从 53 提升到了 71 分, 这个分数比 claude-opus-4 都要高, 仅次于 Gemini-2.5-Pro, claude-opus-4-thinking, o4-mini-high 这三个都是72分。 数学能力的 AIME24'25 测试均提升了10分+, 这里猜测会不会之前放出的 DeepSeek-Prover-V2 会不会也能在训练中起到不小作用 然后看通用能力, MMLU 提升有限, MMLU 是个什么测试呢? 它是个涵盖了多个学科的问答选择题, 问题类似——锅包肉用什么肉? A. 猪肉, B. 羊肉, C.牛肉, D. 鸡肉 (当然实际问题是专业性问题, 比我这个难很多). 目前基础版本的 MMLU 早就被刷爆了(接近满分), 而这次两个 MMLU 的修改版测试没有什么提升, 但这并不是模型训练出现了问题, 而是也快到这两个测试的天花板了, 导致没什么区分度. 这里的区分度可以理解为十以内加减法没有办法作为高考数学题. GPQA 也类似, 但现在也有要被刷爆的趋势了. SimpleQA (这个是OpenAI的测试集) 和 Humanity's Last Exam 这两个目前还没被刷爆, 当然这两个也特别难, 我截图了 Humanity's Last Exam 的例题 (图2) 大家可以看看, 作为一个人类, 我非常有自信这个测试的 2500 道题目全都打 0 分哈哈哈哈. 最后说下总结, 我之前是略对 DeepSeek 这么久没更新有点焦虑的, 但现在来看完全没必要, 甚至只是更新了 R1 就能达到这种水平, 都不用把 R2 掏出来. 这就让大家对 R2 期待更高. 我是真心希望 R2 能有些多模态能力的. 另外题外话, 未来大模型的测试会充满困难, 甚至做出一套完善的测试题目的速度都没大模型发布得快, 现在的头部训练水平会导致新的测试和语料放出后不过几个月就会淘汰. 在我们达到 transformer 模型的理论极限之前, 想要实现AGI, 训练语料的瓶颈可能会更快达到. 所以 R2 的突破会不会是强化学习模式上的新突破, 它的自主学习会更强, 人类的监督只能用来保证模型安全. 否则人类干预完全就是训练的负因素. 让我们拭目以待. #deepseek
深度学习模型升级引发AI能力大跃进,行业迎新变革· 20 条信息
#DeepSeek-R1-0528
#开源模型
#Qwen3-235B-A22B
#编程能力
#数学能力
#OpenAI-o3
#Gemini
分享
评论 0
0
勃勃OC
1个月前
微软和 xAI 刚刚宣布:Grok 3 现已在 Azure AI Foundry 上线。 •Grok 3 具备先进的推理、编程和视觉能力 •由 xAI 构建,并依托微软安全的云平台 •免费预览现已上线,为期两周 同时也可在 GitHub Models 上获取。
马斯克加州发布Grok 3聊天机器人事件· 15 条信息
#微软
#XAI
#Grok 3
#Azure AI Foundry
#推理能力
#编程能力
#视觉能力
#云平台
#GitHub Models
分享
评论 0
0
向阳乔木
3个月前
AI时代最重要的三个技能:写作、编程、英语
#AI时代
#重要技能
#写作能力
#编程能力
#英语能力
分享
评论 0
0
benn404
3个月前
DeepSeek 悄悄更新的 v3 模型权重,编程能力出乎意外的好强……在我测试的几个例子中,基本上都赶上 claude 3.5 sonnet了。 在 deepseek 官网 就能直接使用:关掉 R1,输入的 prompt 可以是“请用 html、css、js 实现一个 xxx”。
#DeepSeek
#V3模型
#编程能力
#claude3.5
#技术测试
#官网使用
#提示输入
#HTML
#CSS
#js
分享
评论 0
0
小互
4个月前
OpenAI 新论文:使用大型推理模型进行竞赛编程 强化学习如何提升大语言模型在编程和推理任务中的表现 核心研究发现 1️⃣ 强化学习可以显著提升 AI 编程能力! 2️⃣ o1-ioi 通过手工优化策略,在 2024 IOI 竞赛中取得 金牌水平。 3️⃣ o3(新一代 AI)完全不依赖手工优化,却比 o1-ioi 还强! 4️⃣ o3 在 CodeForces 评分 达到 2724(99.8% 百分位),接近顶级人类选手。 OpenAI比较了三种 AI 编程系统: o1:通用大语言模型(LLM),基于强化学习(RL),具备基本推理能力。 o1-ioi:个针对 2024 年国际信息学奥林匹克竞赛(IOI) 设计的领域专用系统 o1-ioi(采用了手工设计的推理策略)。 o3:完全基于强化学习(RL),自动学习最优解题方法,不需要人工设计策略。我们展示了将强化学习(RL)应用于大型语言模型(LLM)可以显著提升其在复杂编程和推理任务中的表现。 在 2024 年 IOI 现场比赛中,我们使用 o1-ioi 参赛,并通过人工优化的测试时(test-time)策略,在 49% 百分位取得成绩。在放宽比赛限制的情况下,o1-ioi 甚至达到了金牌水平。 然而,在评估后续的 o3 模型时,我们发现它无需人工设计的推理策略或放宽比赛限制,便可直接获得 IOI 金牌。 我们的研究结果表明,尽管 o1-ioi 这类专门优化的管道能带来显著提升,但 更大规模的通用模型 o3 已经能够超越这些优化版本,并不依赖人工定义的推理策略。 特别是,o3 在 2024 IOI 取得金牌,并在 CodeForces 编程竞赛中获得与人类顶级选手相当的评分。 📢 结果表明,AI 编程不再需要手工优化,与其依赖特定领域的优化策略,更有效的路径是扩展通用的强化学习技术,以实现最先进的 AI 竞赛编程能力。
#OpenAI
#大型推理模型
#强化学习
#编程能力
#人工智能
#竞赛编程
#IOI竞赛
#CodeForces
#新一代AI
分享
评论 0
0
StLi
5个月前
测试了OpenAI新发布的o3-mini,其编程能力之强真的是可以用“恐怖”来形容。不多说了,看视频吧。 prompt:生成一个swiftUI视图,其中包括一个组件,组件实现了一个圆球在一个超立方体中弹跳。 如果是用js、python来做还没有那么吓人。
#OpenAI
#o3-mini
#编程能力
#SwiftUI
#组件
#圆球弹跳
#超立方体
#js
#Python
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞