0 关注者

5天前

很多人没有意识到 TurboQuant 的作用之大。它基本上是把LLM推理的"内存墙"和"速度墙"砸了个大洞。实际落地意味着什么？ - 同样的 GPU，能跑 6 倍以上的并发用户，或者把上下文长度直接拉到 6 倍（LongBench、Needle-in-a-Haystack 等长上下文基准全部零损失）。 - 推理速度直接起飞：H100 上 4-bit 量化版本比原始 32-bit Key

热门新闻