2026.04.29 / 11:05 AM

Qwen 开源高性能线性注意力内核库 FlashQLA，速度提升 2–3 倍

Qwen 团队开源 FlashQLA，基于 TileLang 构建，专为 Gated Delta Network 打造的线性注意力内核库。通过算子融合与代数优化，在 NVIDIA Hopper 上实现 forward 2–3 倍、backward 2 倍速度提升，尤其适合预训练与端侧智能体推理。针对长序列与小批量场景，利用门控衰减特性引入自动卡内上下文并行，并采用 warpgroup 特化内核重叠计算与搬运，有效提高 SM 利用率。