Cursor 称以“warp decode”重构 MoE 解码后,Blackwell GPU 小批量推理吞吐提升 1.84 倍

Cursor 公布一项名为“warp decode”的 MoE 推理方案,称其在 Blackwell GPU 的小批量自回归解码场景中,将计算组织方式从“围绕专家”改为“围绕输出”,把传统路径中 8 个阶段里的 5 个数据整理环节去掉,并将整个 MoE 计算层压缩为两个 kernel。按文中说法,这一做法适用于小批量 decode,不是对专家中心执行方式的通用替代;在 prefill 和大批量推理中,后者仍然更有优势。

Cursor 称,该方案在其内部推理系统、基于 NVIDIA B200 GPU 运行的 Qwen-3 风格模型测试中,吞吐提升 1.84 倍,且输出结果与完整 FP32 参考相比“接近程度”提升 1.4 倍;在 B = 32 时可持续达到 3.95 TB/s 带宽,约为其测得 6.8 TB/s 峰值的 58 %。文中还称,warp decode 通过取消中间激活量化、减少中间缓冲区和跨 warp 同步,提升了生成阶段性能与数值精度。