奥特曼:合着我不建机房你们就不发新模型咯? 给大家带来月之暗面在 Reddit 的 AMA (Ask Me Anything) 的爆料内容!信息量巨大! 首先最大的猛料莫过于 ComfortableAsk449 (小道消息是这位是杨植麟) 回应 Kimi-K3 什么时候发布说 "我们会在奥特曼的万亿美元数据中心建成之前发布"哈哈哈哈 言归正传, 给大家总结这次精华内容, 我觉得说了很多之前大家不知道的事情: 首先, 460万美元训练成本只是传言, 但可以肯定训练成本不会特别高, 官方团队爆料训练使用H800 GPU + Infiniband,数量比美国高端 GPU 少,但充分利用每张卡. int4 精度大家都知道了, 选择 int4 对非 Blackwell GPU 更友好,可以用 marlin 内核. 关于 Kimi K3, 很可能会在 K3 中采用 KDA 相关思想, 并中融入重大架构变化开发新能力, 根据社区观察,每两个月第一个周五发布(预测 2026年1月9日). 其他新模型方面, 目前社区呼声最高的是3B到48B这个区间, 100-120B MoE 社区也强烈需求. 另外透露可能会有新的视觉语言模型! (之前也有Kimi-VL) 技术方面, KDA + NoPE MLA 比 full MLA + RoPE 表现更好, Muon 优化器首次在1T参数规模得到了验证. K2 Thinking 使用端到端代理强化学习训练. 团队曾做过 1M 上下文窗口(当时成本太高),未来版本会增加上下文长度(目前256K). 团队承认当前版本优先性能而非 token 效率, 正在积极改进,会将效率纳入奖励函数. 其他消息还包括, OK Computer 马上也要上 kimi-k2-thinking 版本, 当前写作风格是特调的, 避免谄媚和过度积极. #moonshotAI #kimik2 #kimik3 #kimivl #AMA
石锤! Windsurf 的新模型 SWE-1.5 更像 GLM-4.5! 之前网传硅谷的公司已经在内部开始大面积用国产开放权重大模型来魔改了, 传的尤其猛的是 Cursor 的 Composer-1 是用 DeepSeek 魔改(后训练或微调)的, 而 Windsurf 的 SWE-1.5 是用 GLM-4.6 魔改的. 而上一个基本已经石锤了, 这个还没有被验证, 于是给大家整个活, 看看这个模型从输出特征进行聚类, 更像哪个模型. 我魔改了 Slop-Forensics 分析了 SWE-1.5 和其它国产大模型的语言指纹, 结果出乎意料: 它与 GLM-4.5 聚类在同一分支,而非之前网传的 GLM-4.6! 考虑到一个模型想要效果好, 即使用其他的基座模型也要后训练一段时间, 所以的确更可能是 GLM-4.5 (7月28号发布), 而不是 GLM-4.6 (10月1号发布). 可惜了它没用 GLM-4.6 后训练哈哈哈, 我觉得以目前 GLM-4.6 作为基座模型后训练会比现在更猛, 或者是不是这样? SWE-1.5 对应 GLM-4.5, SWE-1.6 对应 GLM-4.6? 另外, Cerebras (即 Windsurf 这个 SWE-1.5 模型的云计算服务商), 决定将 GLM-4.6 作为默认推荐模型, 考虑到 GLM-4.6 在测试上的表现 (SWE-Bench 68%, LiveCodeBenchV6 82.8%), 我估计下一个模型用GLM-4.6概率就特别大了. 国产大模型牛皮! 顺便讲一下 Slop-Forensics 这个项目的原理: • 统计每个模型的词汇使用频率和短语重复模式 • 将这些"语言习惯"转化为特征向量 • 用聚类算法构建系统发育树,距离近=语言模式相似 就像指纹鉴定,不同模型即使输出相同内容,其底层的词汇偏好、短语组合方式会暴露出训练数据或架构的相似性. SWE-1.5 和 GLM-4.5 在树上紧密聚类,说明它们在: 高频词选择 二元/三元短语组合 词汇复杂度分布 这些维度上高度一致。这种相似性很难伪造——它根植于模型的深层结构中. 我魔改的版本: #智谱 #GLM #Cursor #windsurf #cerebras #国产大模型 #AI编程
写个随笔,  就当获奖感言了. 我一个电子垃圾博主怎么就当选AI大V了呢? 熟悉我的朋友应该知道我这个账号之前一直是个个人号,分享点编程,电子垃圾,骑行之类的"日常"(对我来说)。 事情的起因应该是去年下半年我想攒一个 4xA100 的垃圾服务器,顺便把折腾的大模型显卡天梯给大家分享了下,没想到大家纷纷表示想要多看点这类内容。然后爆发节点是去年年底 DeepSeek-V3 的发布, 我直接拿了个500G内存的机器把 DeepSeek-V3-2bit 跑起来给大家录了个测试. 帖子非常受到家欢迎. 于是渐渐地我发的AI相关的内容超过了电子垃圾, 也没时间折腾电子垃圾了. 现在回看, 根本预料不到今年AI的发展会这么快, 年初写个 Mandelbrot Set 都费劲, 10个月过去已经能刷  IMO/ICPC/IOAA金牌了. 我甚至桌子上有个用 claude-sonnet-3.7 写的太平洋时间时钟,来时刻看现在是不是到了北京时间20点国内大模型厂商要发大模型了(点名Qwen团队平均2天一个新模型),又或者太平洋时间8点美国佬又要搞事了, 我这一年基本都在过太平洋时间.... 我还记得9月20号终于歇了一天跟朋友去环官厅水库骑了170km, 到了康张路发现今年官厅涨水竟然把路面淹了过不去, 被迫多绕了30km 走延庆城区. 也许AI就是打破我们循规蹈矩生活的洪水. 没有什么是一成不变的. 所有的既往的知识,经验,路径. 都要面临被AI重构. 我们有句古话——识时务者为俊杰. 放在今天也一样听起来难受但实用. 说实话我不知道什么时候会AGI, 也不知道AGI了生活会何去何从, 当每天使用手机/电脑超过12小时的界限后, 眼前线下的每一秒都十分珍贵. 没有人比我更懂AI (懂王脸), 也没有人比我更不懂AI (素子脸).  人类被困在自身的肉体里面难以成神, 而近人的智慧现在却要飞升. 我越来越感觉大模型像贤者之石, 我无法跟每一个 expert 完成对话, 却又仰仗它的智慧. When I was a child, I talked like a child, I thought like a child, I reasoned like a child. When I became a man, I put the ways of childhood behind me. —— 1 Corinthians 13:11 感谢微博、微博AI、微博科技同学一直以来的帮助和支持,是你们给了我将这个账号运营下去的信心,感谢你们! ——by karminski-牙医, 写在AGI前夜