Yinsen 0 关注者 关注 1个月前 解密 Groq 的速度惊人的 K2 instruct 模型: 最近 Groq 部署的K2 推理速度真的震惊了我和我的小伙伴。 其超过 300 tokens/s 的表现,远超主流 MaaS 平台普遍低于 50 tokens/s 的水平,带来了近乎实时的交互体验。 这背后的核心是其自研的 LPU (Language Processing Unit) 芯片,一种专为语言模型推理设计的硬件。在2024 前往原网页查看