它来了！Apple的 diffusion- news.news·换个方式看新闻|AI看新闻、实时追踪事件后续

它来了！Apple的 diffusion 大模型它来了！—— DiffuCoder-7B 总计放出了3个模型： DiffuCoder-7B-Base （基座模型） DiffuCoder-7B-Instruct （后训练模型） DiffuCoder-7B-cpGRPO （cpGRPO 优化模型）这些模型都是基于 Qwen2.5-Coder-7B 魔改的（ Qwen3-Coder 刻不容缓，Qwen 你赶紧啊）从论文上看，这次的模型仍然是研究向的，而且由于目前 diffusion 文本模型均处于研究阶段，商业水平的 diffusion 文本模型也主要用来处理快速生成文本的场景。是没有办法跟 transformer base 的头部文本模型对比的。当然，官方还是跑了分的，评分见图片。其中 BigCodeBench-Hard 只有12.8 分。作为对比，Qwen2.5-Coder-7B-Instruct 有 20.3 分，DeepSeek-R1-0528 有35.1 分。它甚至用 Qwen2.5-Coder-7B 基座模型魔改完了还没有Qwen自己后训练的 Instruct 模型分数高。所以这个模型真的只是研究向的。那么，这次 Apple 发布的 DiffuCoder 主要研究了哪些问题？如下： dLLMs 的生成模式与 AR 模型有何不同？在建模不同数据模态（如代码与数学）方面有何差异？ dLLMs 可以有多多样化，后训练应该如何设计？然后他们发现： dLLM 虽然是diffusion 的，但由于语言逻辑顺序的原因，会表现出从左到右的偏见。经过预训练后，我们表明代码任务比数学任务诱导的自回归性要弱。在 dLLMs 中，改变采样温度不仅影响采样到的标记（如在 AR 模型中那样），还会改变生成顺序本身。最后给不知道什么是 diffusion 模型的同学温习下：diffusion架构的文本模型原理基于扩散过程（噪声逐步去除）通过迭代去噪生成文本，而且迭代可以并行，因此速度很快。看上去就像刮奖一样把字刮了出来。目前 diffusion 文本模型有：Mercury ，LLaDA-8B，Dream 7B，gemini-diffusion 等等。模型地址：论文地址： repo地址：

热门新闻