0 关注者

8小时前

谷歌TurboQuant：AI内存压缩六倍，精度零损失谷歌最新推出的TurboQuant，能将大语言模型的KV cache（键值缓存）内存占用压缩至少六倍，推理速度最高提升八倍——而在"大海捞针"召回测试、代码生成等标准benchmark上，表现与全精度模型不相上下。技术层面，TurboQuant采用两步流程：PolarQuant负责对数据做旋转变换，实现超低比特量化；QJL纠错机制则在此

热门新闻