ginobefun 0 关注者 关注 1天前 记录下这篇文章的阅读笔记,关于 MiniMax 和 Kimi 在大模型注意力机制上的不同技术路线选择。 1. MiniMax 选的:全注意力 (Full Attention) 这是一种蛮力但最扎实的办法。 它就像一个记忆力超群、但也最耗费精力的学生。当他读到小说第 500 页的某一个词时,为了彻底理解这个词,他会把这个词,和前面 499 页的每一个词,都重新对比一遍。 优点: 绝对的全面。他 #MiniMax #Kimi #大模型注意力机制 #技术路线选择 #全注意力 vs 混合注意力 前往原网页查看