#MiniMax

阑夕
1个月前
晚点LatePost昨天发了一篇Kimi和MiniMax的近况报道,感觉现在也只有这家媒体还在关注「AI六小龙」了,自从巨头下场开始规模化投放之后,独立AI公司的生存空间已被蚕食殆尽了,月之暗面和MiniMax是其中尚且存有活路的两家,确实值得多写写。 简单总结如下: - 月之暗面和MiniMax很像,都在全尺寸路线上摇摆过,Kimi成功之后,月之暗面尝试过复现Sora的视频效果,但一直没有达到预期,出海产品也相继关停,MiniMax想学字节做App工厂,推了Talkie、星野、海螺等2C产品,却不具备字节的工业化获客体系,于是这两家公司都承担了很高的试错成本; - 去年是中国大模型行业士气最低的时期,投资机构失去耐心,要求看到DAU的直观指标,倒逼创业公司进入了和豆包这种无限弹药的产品拼消耗的赛道,「打不过,但不能停」成了普遍心态,而投资人之间的议程也变成了卖股份,信心层面的亏空巨大; - MiniMax本来并不想主打视频模型,然而海螺生成视频的能力在海外爆火,反过来影响了管理层的注意力,开始变得「既要又要」——既要增长,又不要色情生成场景的流量——结果受困于审核力度的调整,「一健康就不增长」;😅😅😅 - 不夸张的说,DeepSeek救了整个行业,不只是因为它本身创造的增长奇观,更在于用无可辩驳的说服力,推翻了「只有买量才是唯一出路」的共识,月之暗面放弃在K1上继续雕花,毕其功于一役的开发出了口碑甚好的K2,MiniMax也用新模型M2重回舞台中央,而且K2和M2都选择了开源,为两家公司成功续命; - 亲力纠偏且初见成效的结果是让月之暗面和MiniMax回归了创始人依赖直觉的治理模式,在一定程度上能够抵御噪音,杨植麟会反思早期内部有员工提出长文本建议,但被以「这是工程的活儿,不是技术」为由否决了,直到Anthropic的Claude以50万上下文的处理能力震动行业,Kimi这才确定了长文本作为共识,所以杨植麟现在会特别重视能够新想法的员工; - 相比之下,MiniMax的创始人闫俊杰会更「严酷」一些,他说只要认为不是同路人的同事,自己会亲自请走,绝不容忍,MiniMax对齐业务的第一任负责人甚至因为和他激辩技术路线,直接被降职成了普通工程师,在如此管理风格下,MiniMax的早期一百名员工已经走了一半左右; - 如今,OpenAI在一级市场的估值超过了5000亿美金,xAI和Anthropic的估值也在2000亿美金上下,而月之暗面和MiniMax的估值都停滞在了40亿美金的量级,这让当初争论不休的那个问题——谁能成为中国的OpenAI——变得没有意义了; - 阿里曾经直接或间接的投资了「AI六小龙」里的五家,但在全力发展自家的大模型以来,这些战略投资都不重要了,类似的转变也发生在字节、腾讯等巨头身上,与其把钱交给创业公司去烧,不如自己供血内部消化,不再相信AI是一场代理人战争; - 月之暗面开了新一轮的融资,MiniMax要去香港上市,在解决掉短期的战略摇摆问题之后,它们依然逃不过缺钱这个长期的生存问题,需要的是可能十倍于当前公司体量的资本注入,才有机会进入下一轮竞争周期,但钱从哪里来、又为什么要给它们,会是一个相当复杂的自证过程。
ginobefun
1个月前
记录下这篇文章的阅读笔记,关于 MiniMax 和 Kimi 在大模型注意力机制上的不同技术路线选择。 1. MiniMax 选的:全注意力 (Full Attention) 这是一种蛮力但最扎实的办法。 它就像一个记忆力超群、但也最耗费精力的学生。当他读到小说第 500 页的某一个词时,为了彻底理解这个词,他会把这个词,和前面 499 页的每一个词,都重新对比一遍。 优点: 绝对的全面。他绝不会漏掉任何一丝线索,理解的质量是最高的。 缺点: 成本高到爆炸。文章越长,这种回头看的对比次数就呈指数级飙升。这会吃掉海量的内存和计算时间。 MiniMax 的选择是:我们先用这种最好的蛮力办法,一边等待未来的硬件变得足够便宜,来解决成本问题。 2. Kimi 选的:混合注意力 (Kimi Linear) 这是一种更聪明、更像人类的巧办法。 Kimi 知道蛮力在读长文时是行不通的。它就像一个更有效率的学霸,采用了 3:1 的混合阅读模式: 在 3/4 的时间用一种「线性接力」的方式阅读。 当它读到第 500 页的某个词时,它不会回头去看 499 页的全部内容,而是只看第 499 页最后传过来的那个摘要。它在摘要上补充新信息,再传给下一页。这就像我们正常读书,只需要记住一个不断更新的上下文概要。这非常快,而且极度节省内存。 在 1/4 的时间里处理纠错,它也怕阅读摘要传久了,会忘掉第 1 页的细节。 所以每隔 3 层接力后,它就停一下,用一种压缩过的「全局眼光」快速扫一眼全文的内容大纲,确保自己对整本书的理解没有跑偏。 核心差别 MiniMax 全注意力是用蛮力换质量。它赌的是未来硬件会进步,能撑得起这种巨大的消耗。 Kimi Linear 是用巧劲换效率。它用一种 3:1 的混合架构,在大部分时间跑得飞快,再用小部分时间回头看大局。 Kimi 的突破还在于,它证明了这套巧劲,现在就能用低 75% 的内存和快 6 倍的速度,达到甚至超过了蛮力办法的效果。