#DeepSeek-R1-0528

9个月前

R1更新新版本DeepSeek-R1-0528，看似是个小版本，实际“在LiveCodeBench上几乎与OpenAI o3-high相当！” 难倒o3、Gemini 2.5 pro、Claude 4等一众顶流大模型的数字新难题“9.9-9.11=？”也能做对了。广大网友已经迅速整理出了更新亮点： 1.能够像Google模型一样进行深入推理 2.改进了写作任务——更自然、格式更好 3，独特的推理风格——快速且深思熟虑 4.长时间思考——每个任务最长能思考30-60分钟

深度学习模型升级引发AI能力大跃进，行业迎新变革· 143 条信息

#DeepSeek-R1-0528 #LiveCodeBench #OpenAI #o3-high #顶流大模型 #数字新难题 #Google模型 #推理能力 #写作任务

卡尔的AI沃茨

10个月前

DeepSeek-R1-0528（R1-V2、新R1）的深度测评来了，代码、3D、物理模拟、设计美学、PPT、幻觉、中文写作都测了边！ R1就是基于3月份更新的V3-0324更新的。好消息是现在已经在huggingface开源了、OpenRouter上免费使用，不太需要担心服务器繁忙。先说说测下来的结论，R1-0528水平确确实实是可以达到Claude3.7，接近Claude4和OpenAI o3。第一个案例就是我跑出来的巧克力制作3D演示👇完整度相当高。本来这个测试案例本来已经被我拉黑了，除了claude 3.7 sonnet的 Thinking版本，基本都会卡住。但是，R1-0528 用两次对话就成功了！完整度非常夸张，使用弹跳的粒子系统模拟可可粉，构建出了一个简单的流水线场景，不点击的时候会缓慢旋转。当鼠标点到某个机器上，会有快速旋转的过渡动画，还会有文字标签展示是处于巧克力制作的那方面。侧边栏的文字演示也没有那么落下，给出了每一个环节的详细说明。（1/7）

深度学习模型升级引发AI能力大跃进，行业迎新变革· 143 条信息

#DeepSeek-R1-0528 #R1-V2 #深度测评 #3D #物理模拟 #设计美学 #PPT #中文写作 #V3-0324 #HuggingFace #Openrouter #Claude3.7 #Claude4 #OpenAI

karminski-牙医

10个月前

给大家解析一下 DeepSeek-R1-0528 的官方放出的评测数据。目前 DeepSeek-R1-0528 毫无疑问是开源模型第一了, Qwen3-235B-A22B 在热座上仅座了一个月[苦涩]. 先看图1，我们可以看到编程能力和数学能力都有巨大的提升，基本都是10%左右的提升。这是一个相当猛的结果。而大家这两天放出的测试也能看到这个新版本R1直逼 OpenAI-o3 或者 Gemini-2.5-Pro 的水平. (注意我把 CodeForces 测试分数等比缩小了100x，要不然坐标轴放不下了. 不影响展示提升比例) 具体来讲, Aider-Polyglot 测试从 53 提升到了 71 分, 这个分数比 claude-opus-4 都要高, 仅次于 Gemini-2.5-Pro, claude-opus-4-thinking, o4-mini-high 这三个都是72分。数学能力的 AIME24'25 测试均提升了10分+, 这里猜测会不会之前放出的 DeepSeek-Prover-V2 会不会也能在训练中起到不小作用然后看通用能力, MMLU 提升有限, MMLU 是个什么测试呢? 它是个涵盖了多个学科的问答选择题, 问题类似——锅包肉用什么肉? A. 猪肉, B. 羊肉, C.牛肉, D. 鸡肉 (当然实际问题是专业性问题, 比我这个难很多). 目前基础版本的 MMLU 早就被刷爆了(接近满分), 而这次两个 MMLU 的修改版测试没有什么提升, 但这并不是模型训练出现了问题, 而是也快到这两个测试的天花板了, 导致没什么区分度. 这里的区分度可以理解为十以内加减法没有办法作为高考数学题. GPQA 也类似, 但现在也有要被刷爆的趋势了. SimpleQA (这个是OpenAI的测试集) 和 Humanity's Last Exam 这两个目前还没被刷爆, 当然这两个也特别难, 我截图了 Humanity's Last Exam 的例题 (图2) 大家可以看看, 作为一个人类, 我非常有自信这个测试的 2500 道题目全都打 0 分哈哈哈哈. 最后说下总结, 我之前是略对 DeepSeek 这么久没更新有点焦虑的, 但现在来看完全没必要, 甚至只是更新了 R1 就能达到这种水平, 都不用把 R2 掏出来. 这就让大家对 R2 期待更高. 我是真心希望 R2 能有些多模态能力的. 另外题外话, 未来大模型的测试会充满困难, 甚至做出一套完善的测试题目的速度都没大模型发布得快, 现在的头部训练水平会导致新的测试和语料放出后不过几个月就会淘汰. 在我们达到 transformer 模型的理论极限之前, 想要实现AGI, 训练语料的瓶颈可能会更快达到. 所以 R2 的突破会不会是强化学习模式上的新突破, 它的自主学习会更强, 人类的监督只能用来保证模型安全. 否则人类干预完全就是训练的负因素. 让我们拭目以待. #deepseek

深度学习模型升级引发AI能力大跃进，行业迎新变革· 143 条信息

#DeepSeek-R1-0528 #开源模型 #Qwen3-235B-A22B #编程能力 #数学能力 #OpenAI-o3 #Gemini

10个月前

Deepseek 官方公布了 DeepSeek-R1-0528 细节 ↓🧵 推理能力全面增强：通过加大后训练算力，模型的思维深度与推理能力显著提升。AIME 2025 测试中准确率从 70% 提升至 87.5%。幻觉率显著降低：在摘要、改写、阅读理解等场景下幻觉率下降约 45~50%。输出内容更可靠，事实一致性更高。

深度学习模型升级引发AI能力大跃进，行业迎新变革· 143 条信息

#DeepSeek #DeepSeek-R1-0528 #推理能力 #AIME 2025 #幻觉率