Qwen 开源高性能线性注意力内核库 FlashQLA,速度提升 2–3 倍
Qwen 团队开源 FlashQLA,基于 TileLang 构建,专为 Gated Delta Network 打造的线性注意力内核库。通过算子融合与代数优化,在 NVIDIA Hopper 上实现 forward 2–3 倍、backward 2 倍速度提升,尤其适合预训练与端侧智能体推理。针对长序列与小批量场景,利用门控衰减特性引入自动卡内上下文并行,并采用 warpgroup 特化内核重叠计算与搬运,有效提高 SM 利用率。