張小珺 Xiaojùn 0 关注者 关注 9小时前 这篇很前沿,也很hardcore——关于算法和架构创新。 由于数据、算力、算法三驾马车,数据难度增大,中国算力相对有限,中国的算法走在了世界前沿。 近几年架构最大突破是DeepSeek的MoE,它让MoE成了全球共识;而下一个突破的重要方向可能是Attention。中国公司已经在Attention展开了不同技术bet。 本集我们从Kimi Linear、DeepSeek Sparse、Minima #算法 #架构创新 #DeepSeek MoE #attention #Kimi Linear 前往原网页查看