科技动态 — 2026-03-25 13:34

Google Research 推出 TurboQuant，测试中将大模型 KV 缓存压至 3 比特

Google Research 推出向量量化算法 TurboQuant，并同时公布 QJL 与 PolarQuant，目标是在大语言模型和向量搜索场景中大幅压缩高维向量，缓解 KV 缓存的内存瓶颈。实验结果显示，TurboQuant 在无需训练或微调的情况下可将 KV 缓存量化到 3 比特；在长上下文“needle-in-a-haystack”测试中，相关内存占用至少压缩 6 倍，同时保持下游结果不变。

TurboQuant 将在 ICLR 2026 展示，QJL 和 PolarQuant 将在 AISTATS 2026 展示。实验结果还显示，4 比特 TurboQuant 在 H100 GPU 上计算 attention logits 的速度较 32 比特未量化 keys 最高提升 8 倍，在高维向量搜索任务中的 recall 也优于 PQ 和 RabbiQ。