微软发布Differential Transformer V2,提升AI模型解码效率

7 小时前·来源:Hugging Face Blog
TransformerAI模型微软解码优化注意力机制

微软发布了Differential Transformer V2,这是一种改进的Transformer架构。该版本通过增加查询头数量但不增加键值头,提升了大型语言模型的解码速度。DIFF V2无需自定义内核,可在标准GPU上高效运行。

微软发布了Differential Transformer V2,这是一种改进的Transformer架构,旨在提升大型语言模型的性能。该版本由Tianzhu Ye、Li Dong、Yutao Sun和Furu Wei开发,于2026年1月20日发布。DIFF V2在DIFF V1的基础上进行了优化,代码已开源在微软的unilm仓库中。

DIFF V2的核心设计是增加查询头数量,同时保持键值头数量不变。这种设计使得解码速度与标准Transformer相当,因为LLM解码通常是内存受限的。此外,由于查询、键和值的头维度对齐,DIFF V2无需自定义注意力内核,而DIFF V1需要自定义内核且解码可能较慢。DIFF V2还提高了注意力模块在解码时的算术强度。

在预训练阶段,使用H系列和B系列GPU上的FlashAttention内核时,DIFF V2引入的吞吐量减少可忽略不计。对于长序列预填充,建议将DIFF V2与YOCO等技术结合使用,这些技术已能将预填充复杂度降低到线性时间。从参数和计算量角度看,DIFF V2相比具有相同查询维度的Transformer模型,输出投影的参数和浮点运算更少。

背景阅读

Transformer架构是当前AI领域,特别是自然语言处理(NLP)和大型语言模型(LLM)的核心技术,由Google在2017年提出。它基于自注意力机制,能够并行处理序列数据,广泛应用于GPT、BERT等模型。然而,标准Transformer在解码时面临内存和计算效率挑战,尤其是在长序列场景下。近年来,研究者们不断优化Transformer,如引入稀疏注意力、线性注意力等技术来提升性能。微软的Differential Transformer系列是这类优化的一部分,旨在通过差分操作改进注意力机制,平衡模型性能和计算效率。DIFF V1已展示出潜力,但存在解码速度慢和需要自定义内核的问题。DIFF V2的发布进一步解决了这些瓶颈,推动了高效AI模型的发展,与行业趋势如Google的Gemma模型优化相呼应。

评论 (0)

登录后参与评论

加载评论中...