Google Research 推出 TurboQuant,测试中将大模型 KV 缓存压至 3 比特
Google Research 推出向量量化算法 TurboQuant,并同时公布 QJL 与 PolarQuant,目标是在大语言模型和向量搜索场景中大幅压缩高维向量,缓解 KV 缓存的内存瓶颈。实验结果显示,TurboQuant 在无需训练或微调的情况下可将 KV 缓存量化到 3 比特;在长上下文“needle-in-a-haystack”测试中,相关内存占用至少压缩 6 倍,同时保持下游结果不变。
TurboQuant 将在 ICLR 2026 展示,QJL 和 PolarQuant 将在 AISTATS 2026 展示。实验结果还显示,4 比特 TurboQuant 在 H100 GPU 上计算 attention logits 的速度较 32 比特未量化 keys 最高提升 8 倍,在高维向量搜索任务中的 recall 也优于 PQ 和 RabbiQ。