ginobefun

ginobefun

0 关注者

1天前

记录下这篇文章的阅读笔记,关于 MiniMax 和 Kimi 在大模型注意力机制上的不同技术路线选择。 1. MiniMax 选的:全注意力 (Full Attention) 这是一种蛮力但最扎实的办法。 它就像一个记忆力超群、但也最耗费精力的学生。当他读到小说第 500 页的某一个词时,为了彻底理解这个词,他会把这个词,和前面 499 页的每一个词,都重新对比一遍。 优点: 绝对的全面。他