再给 Grok 4 一次机会哈 上个20小球测试有朋友说一个case不能代表什么, 我就问一句, 如果你写代码, 上来的第一个 case 就拉跨, 你还会再用这个模型吗? 两个 case 也拉跨呢? 汰欧蜜!撸可英买埃斯! 这个是上个月我做出来的拆烟囱测试, 主要是使用 Three.js 来模拟一个三维场景, 尤其是这个烟囱完全需要大模型生成代码自己搭起来. 然后在烟囱底部设置爆炸点, 炸掉一部分砖块后, 影响烟囱的平衡导致烟囱倒塌。 这个测试相对于20小球七边形测试来说, 考察物理效果其实没有 20 小球复杂, 它只有碰撞和重力, 并且都能依靠 Three.js 库的插件来实现. 所以考察项目更多聚焦于 prompt 的指令遵循和前端代码的能力以及创造性. 直接来看 Grok4 表现好的和不好的地方。 好的: 倒塌的模拟不错, 模型的放置, 重力方向起码没有搞错 不好的: 默认的烟囱就是个已经爆炸到一半的烟囱是绷不住了,这个连上个月测试的 kimi 和 minimax 的开源模型都不至于这么抽象 爆炸的粒子模拟很怪,勉强能理解那个白色的是一团烟雾 光影效果特别差,对比左边的 DeepSeek 一眼就能看出来了 web 交互写得也很差, 看 DeepSeek 的按钮, 这个的按钮就是个灰色的按钮 (在画面外) 以及最重要的, 它生成其实是失败的!我反复测试3次都有代码错误。它引用库的方法有问题  (Uncaught TypeError: Failed to resolve module specifier "three". Relative references must start with either "/", "./", or "../".),并且它自己修不好这个报错。我只能用 Claude-4-Sonnet 修了一下才能正确运行........ 结论:别用这玩意写代码, 爱咋咋地吧, 累了 #Grok4
它来了!Apple的 diffusion 大模型它来了!—— DiffuCoder-7B 总计放出了3个模型: DiffuCoder-7B-Base (基座模型) DiffuCoder-7B-Instruct (后训练模型) DiffuCoder-7B-cpGRPO (cpGRPO 优化模型) 这些模型都是基于 Qwen2.5-Coder-7B 魔改的 ( Qwen3-Coder 刻不容缓,Qwen 你赶紧啊) 从论文上看,这次的模型仍然是研究向的,而且由于目前 diffusion 文本模型均处于研究阶段,商业水平的 diffusion 文本模型也主要用来处理快速生成文本的场景。是没有办法跟 transformer base 的头部文本模型对比的。 当然,官方还是跑了分的,评分见图片。其中 BigCodeBench-Hard 只有12.8 分。作为对比,Qwen2.5-Coder-7B-Instruct 有 20.3 分,DeepSeek-R1-0528 有35.1 分。它甚至用 Qwen2.5-Coder-7B 基座模型魔改完了还没有Qwen自己后训练的 Instruct 模型分数高。所以这个模型真的只是研究向的。 那么,这次 Apple 发布的 DiffuCoder 主要研究了哪些问题?如下: dLLMs 的生成模式与 AR 模型有何不同? 在建模不同数据模态(如代码与数学)方面有何差异? dLLMs 可以有多多样化,后训练应该如何设计? 然后他们发现: dLLM 虽然是diffusion 的,但由于语言逻辑顺序的原因,会表现出从左到右的偏见。 经过预训练后,我们表明代码任务比数学任务诱导的自回归性要弱。 在 dLLMs 中,改变采样温度不仅影响采样到的标记(如在 AR 模型中那样),还会改变生成顺序本身。 最后给不知道什么是 diffusion 模型的同学温习下:diffusion架构的文本模型原理基于扩散过程(噪声逐步去除)通过迭代去噪生成文本,而且迭代可以并行,因此速度很快。看上去就像刮奖一样把字刮了出来。 目前 diffusion 文本模型有:Mercury ,LLaDA-8B,Dream 7B,gemini-diffusion 等等。 模型地址: 论文地址: repo地址:
1个月前
给大家解析一下 DeepSeek-R1-0528 的官方放出的评测数据。目前 DeepSeek-R1-0528 毫无疑问是开源模型第一了, Qwen3-235B-A22B 在热座上仅座了一个月[苦涩]. 先看图1,我们可以看到编程能力和数学能力都有巨大的提升,基本都是10%左右的提升。这是一个相当猛的结果。而大家这两天放出的测试也能看到这个新版本R1直逼 OpenAI-o3 或者 Gemini-2.5-Pro 的水平. (注意我把 CodeForces 测试分数等比缩小了100x,要不然坐标轴放不下了. 不影响展示提升比例) 具体来讲, Aider-Polyglot 测试从 53 提升到了 71 分, 这个分数比 claude-opus-4 都要高, 仅次于 Gemini-2.5-Pro, claude-opus-4-thinking, o4-mini-high 这三个都是72分。 数学能力的 AIME24'25 测试均提升了10分+, 这里猜测会不会之前放出的 DeepSeek-Prover-V2 会不会也能在训练中起到不小作用 然后看通用能力, MMLU 提升有限, MMLU 是个什么测试呢? 它是个涵盖了多个学科的问答选择题, 问题类似——锅包肉用什么肉? A. 猪肉, B. 羊肉, C.牛肉, D. 鸡肉 (当然实际问题是专业性问题, 比我这个难很多). 目前基础版本的 MMLU 早就被刷爆了(接近满分), 而这次两个 MMLU 的修改版测试没有什么提升, 但这并不是模型训练出现了问题, 而是也快到这两个测试的天花板了, 导致没什么区分度. 这里的区分度可以理解为十以内加减法没有办法作为高考数学题. GPQA 也类似, 但现在也有要被刷爆的趋势了. SimpleQA (这个是OpenAI的测试集) 和 Humanity's Last Exam 这两个目前还没被刷爆, 当然这两个也特别难, 我截图了 Humanity's Last Exam 的例题 (图2) 大家可以看看, 作为一个人类, 我非常有自信这个测试的 2500 道题目全都打 0 分哈哈哈哈. 最后说下总结, 我之前是略对 DeepSeek 这么久没更新有点焦虑的, 但现在来看完全没必要, 甚至只是更新了 R1 就能达到这种水平, 都不用把 R2 掏出来. 这就让大家对 R2 期待更高. 我是真心希望 R2 能有些多模态能力的. 另外题外话, 未来大模型的测试会充满困难, 甚至做出一套完善的测试题目的速度都没大模型发布得快, 现在的头部训练水平会导致新的测试和语料放出后不过几个月就会淘汰. 在我们达到 transformer 模型的理论极限之前, 想要实现AGI, 训练语料的瓶颈可能会更快达到. 所以 R2 的突破会不会是强化学习模式上的新突破, 它的自主学习会更强, 人类的监督只能用来保证模型安全. 否则人类干预完全就是训练的负因素. 让我们拭目以待. #deepseek