Yinsen
8小时前
解密 Groq 的速度惊人的 K2 instruct 模型: 最近 Groq 部署的K2 推理速度真的震惊了我和我的小伙伴。 其超过 300 tokens/s 的表现,远超主流 MaaS 平台普遍低于 50 tokens/s 的水平,带来了近乎实时的交互体验。 这背后的核心是其自研的 LPU (Language Processing Unit) 芯片,一种专为语言模型推理设计的硬件。在2024年2月,Groq 就已火一把了,与通用目的的 GPU 不同,LPU 架构旨在消除外部内存瓶颈,最大化每个时钟周期的计算效率,从而实现极致的低延迟和高吞吐量。 然而,在惊人的性能演示之后,贾扬清对成本的分析揭示了另一面现实,这也是评估其商业可行性的关键。要实现 Groq 所宣称的旗舰性能,成本差异是巨大的: Groq 方案: 硬件成本高达 1144万美元,年电费约 25.4万美元。这意味着实现其顶级推理速度的初期总成本接近 1171万美元。 英伟达方案: 作为对比,实现同等性能,一个 8 卡 H100 盒子的硬件成本约为 30万美元,年电费仅 2.4万美元。 此外,即使是密度更高的英伟达 H200,也能在更小的空间(如1/4服务器机架)内高效运行这些模型,这进一步凸显了 Groq 在当前阶段面临的成本效益挑战。 但无论如何,Groq 团队的工作显然揭示了一些新的可能性与其价值。 对于 AI 的进化,我们应持有更乐观、也更审慎的心态,期待技术在竞争与迭代中找到成本与性能的最佳平衡点。
Yinsen
1个月前