时政
财经
科技
虚拟货币
其他
登录
#KDA架构
关注
karminski-牙医
1天前
奥特曼:合着我不建机房你们就不发新模型咯? 给大家带来月之暗面在 Reddit 的 AMA (Ask Me Anything) 的爆料内容!信息量巨大! 首先最大的猛料莫过于 ComfortableAsk449 (小道消息是这位是杨植麟) 回应 Kimi-K3 什么时候发布说 "我们会在奥特曼的万亿美元数据中心建成之前发布"哈哈哈哈 言归正传, 给大家总结这次精华内容, 我觉得说了很多之前大家不知道的事情: 首先, 460万美元训练成本只是传言, 但可以肯定训练成本不会特别高, 官方团队爆料训练使用H800 GPU + Infiniband,数量比美国高端 GPU 少,但充分利用每张卡. int4 精度大家都知道了, 选择 int4 对非 Blackwell GPU 更友好,可以用 marlin 内核. 关于 Kimi K3, 很可能会在 K3 中采用 KDA 相关思想, 并中融入重大架构变化开发新能力, 根据社区观察,每两个月第一个周五发布(预测 2026年1月9日). 其他新模型方面, 目前社区呼声最高的是3B到48B这个区间, 100-120B MoE 社区也强烈需求. 另外透露可能会有新的视觉语言模型! (之前也有Kimi-VL) 技术方面, KDA + NoPE MLA 比 full MLA + RoPE 表现更好, Muon 优化器首次在1T参数规模得到了验证. K2 Thinking 使用端到端代理强化学习训练. 团队曾做过 1M 上下文窗口(当时成本太高),未来版本会增加上下文长度(目前256K). 团队承认当前版本优先性能而非 token 效率, 正在积极改进,会将效率纳入奖励函数. 其他消息还包括, OK Computer 马上也要上 kimi-k2-thinking 版本, 当前写作风格是特调的, 避免谄媚和过度积极. #moonshotAI #kimik2 #kimik3 #kimivl #AMA
#月之暗面
#Kimi-K3发布预测
#AI模型训练成本
#KDA架构
#上下文窗口
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞