9小时前

这篇很前沿,也很hardcore——关于算法和架构创新。 由于数据、算力、算法三驾马车,数据难度增大,中国算力相对有限,中国的算法走在了世界前沿。 近几年架构最大突破是DeepSeek的MoE,它让MoE成了全球共识;而下一个突破的重要方向可能是Attention。中国公司已经在Attention展开了不同技术bet。 本集我们从Kimi Linear、DeepSeek Sparse、Minima