#月之暗面

奥特曼:合着我不建机房你们就不发新模型咯? 给大家带来月之暗面在 Reddit 的 AMA (Ask Me Anything) 的爆料内容!信息量巨大! 首先最大的猛料莫过于 ComfortableAsk449 (小道消息是这位是杨植麟) 回应 Kimi-K3 什么时候发布说 "我们会在奥特曼的万亿美元数据中心建成之前发布"哈哈哈哈 言归正传, 给大家总结这次精华内容, 我觉得说了很多之前大家不知道的事情: 首先, 460万美元训练成本只是传言, 但可以肯定训练成本不会特别高, 官方团队爆料训练使用H800 GPU + Infiniband,数量比美国高端 GPU 少,但充分利用每张卡. int4 精度大家都知道了, 选择 int4 对非 Blackwell GPU 更友好,可以用 marlin 内核. 关于 Kimi K3, 很可能会在 K3 中采用 KDA 相关思想, 并中融入重大架构变化开发新能力, 根据社区观察,每两个月第一个周五发布(预测 2026年1月9日). 其他新模型方面, 目前社区呼声最高的是3B到48B这个区间, 100-120B MoE 社区也强烈需求. 另外透露可能会有新的视觉语言模型! (之前也有Kimi-VL) 技术方面, KDA + NoPE MLA 比 full MLA + RoPE 表现更好, Muon 优化器首次在1T参数规模得到了验证. K2 Thinking 使用端到端代理强化学习训练. 团队曾做过 1M 上下文窗口(当时成本太高),未来版本会增加上下文长度(目前256K). 团队承认当前版本优先性能而非 token 效率, 正在积极改进,会将效率纳入奖励函数. 其他消息还包括, OK Computer 马上也要上 kimi-k2-thinking 版本, 当前写作风格是特调的, 避免谄媚和过度积极. #moonshotAI #kimik2 #kimik3 #kimivl #AMA
月之暗面更新了 K2 模型的 0905 版本,我试了一下,这次 Coding 能力提升挺大。 尤其 3D 房屋展示那个案例比我前几天用 Claude 4.1 写的时候轻松好多。 从公告来看这次升级将上下文提升到了 256K,在编码 Agent 下 Coding 能力也有所提升,前端代码美观度有所提升。 我拿之前测试 GPT-5 那个巨长要求巨多的提示词试了一下效果相当不错,质量跟当时对比测评中最好的 GPT-5 有一拼。 而且这个涉及多个页面加上超长提示词也没啥问题,后来还做了一次修改,而且跟当时最好的 GPT-5 一样也加上了地址每个字段的验证,非常细致。 然后我试了一下当时 0711 那个版本没搞定的东西,当时一旦我想让他写 React 应用他就会陷入循环,而且最后没有成功,我的提示词当时比较简单,二是 React 环境构建就麻烦。 这次我让他用 React 和 R3F 框架帮我展示上次用 Nano Banana 做的 3D 模型,没想到只修改了一次就成功了,实现的非常完美,该加的材质都加上了,而且点击出现渲染图也行,坐标对齐很好,这个可比0711 我测试那个项目难多了。 作为对比我前几天演示的时候用的 Cursor 的 Claude 4.1 写的,而且写之前还跟 GPT-5 讨论了非常细的提示词,我调试了好多次才搞定,最后还是有小 Bug。 最重要的定价跟之前相同,K2 的高速版API也已经自动升级到了 0905 版本,输出速度也快了非常多,达到60-100 Token/s。 感兴趣可以改一下 Cluade Code 的 API 去试试。