Xiao Tan

Xiao Tan

0 关注者

5天前

很多人没有意识到 TurboQuant 的作用之大。 它基本上是把LLM推理的"内存墙"和"速度墙"砸了个大洞。 实际落地意味着什么? - 同样的 GPU,能跑 6 倍以上的并发用户,或者把上下文长度直接拉到 6 倍(LongBench、Needle-in-a-Haystack 等长上下文基准全部零损失)。 - 推理速度直接起飞:H100 上 4-bit 量化版本比原始 32-bit Key

热门新闻