勃勃OC

勃勃OC

0 关注者

8小时前

谷歌TurboQuant:AI内存压缩六倍,精度零损失 谷歌最新推出的TurboQuant,能将大语言模型的KV cache(键值缓存)内存占用压缩至少六倍,推理速度最高提升八倍——而在"大海捞针"召回测试、代码生成等标准benchmark上,表现与全精度模型不相上下。 技术层面,TurboQuant采用两步流程:PolarQuant负责对数据做旋转变换,实现超低比特量化;QJL纠错机制则在此

热门新闻