NeoBeta - AI 科技资讯

微软发布了Differential Transformer V2，这是一种改进的Transformer架构，旨在提升大型语言模型的性能。该版本由Tianzhu Ye、Li Dong、Yutao Sun和Furu Wei开发，于2026年1月20日发布。DIFF V2在DIFF V1的基础上进行了优化，代码已开源在微软的unilm仓库中。

DIFF V2的核心设计是增加查询头数量，同时保持键值头数量不变。这种设计使得解码速度与标准Transformer相当，因为LLM解码通常是内存受限的。此外，由于查询、键和值的头维度对齐，DIFF V2无需自定义注意力内核，而DIFF V1需要自定义内核且解码可能较慢。DIFF V2还提高了注意力模块在解码时的算术强度。

在预训练阶段，使用H系列和B系列GPU上的FlashAttention内核时，DIFF V2引入的吞吐量减少可忽略不计。对于长序列预填充，建议将DIFF V2与YOCO等技术结合使用，这些技术已能将预填充复杂度降低到线性时间。从参数和计算量角度看，DIFF V2相比具有相同查询维度的Transformer模型，输出投影的参数和浮点运算更少。

背景阅读

Transformer架构是当前AI领域，特别是自然语言处理（NLP）和大型语言模型（LLM）的核心技术，由Google在2017年提出。它基于自注意力机制，能够并行处理序列数据，广泛应用于GPT、BERT等模型。然而，标准Transformer在解码时面临内存和计算效率挑战，尤其是在长序列场景下。近年来，研究者们不断优化Transformer，如引入稀疏注意力、线性注意力等技术来提升性能。微软的Differential Transformer系列是这类优化的一部分，旨在通过差分操作改进注意力机制，平衡模型性能和计算效率。DIFF V1已展示出潜力，但存在解码速度慢和需要自定义内核的问题。DIFF V2的发布进一步解决了这些瓶颈，推动了高效AI模型的发展，与行业趋势如Google的Gemma模型优化相呼应。

微软发布Differential Transformer V2，提升AI模型解码效率

背景阅读

相关阅读

微软与Hugging Face深化合作，在Azure上简化开源模型部署

微软CEO纳德拉谈AI如何改变工作流程

微软发布 OptiMind：20B 参数模型将自然语言转化为优化模型

评论 (0)