科技动态 — 2026-04-07 12:04

Cursor 称以“warp decode”重构 MoE 解码后，Blackwell GPU 小批量推理吞吐提升 1.84 倍

Cursor 公布一项名为“warp decode”的 MoE 推理方案，称其在 Blackwell GPU 的小批量自回归解码场景中，将计算组织方式从“围绕专家”改为“围绕输出”，把传统路径中 8 个阶段里的 5 个数据整理环节去掉，并将整个 MoE 计算层压缩为两个 kernel。按文中说法，这一做法适用于小批量 decode，不是对专家中心执行方式的通用替代；在 prefill 和大批量推理中，后者仍然更有优势。

Cursor 称，该方案在其内部推理系统、基于 NVIDIA B200 GPU 运行的 Qwen-3 风格模型测试中，吞吐提升 1.84 倍，且输出结果与完整 FP32 参考相比“接近程度”提升 1.4 倍；在 B = 32 时可持续达到 3.95 TB/s 带宽，约为其测得 6.8 TB/s 峰值的 58 ％。文中还称，warp decode 通过取消中间激活量化、减少中间缓冲区和跨 warp 同步，提升了生成阶段性能与数值精度。