微软发布了Differential Transformer V2,这是一种改进的Transformer架构,旨在提升大型语言模型的性能。该版本由Tianzhu Ye、Li Dong、Yutao Sun和Furu Wei开发,于2026年1月20日发布。DIFF V2在DIFF V1的基础上进行了优化,代码已开源在微软的unilm仓库中。
DIFF V2的核心设计是增加查询头数量,同时保持键值头数量不变。这种设计使得解码速度与标准Transformer相当,因为LLM解码通常是内存受限的。此外,由于查询、键和值的头维度对齐,DIFF V2无需自定义注意力内核,而DIFF V1需要自定义内核且解码可能较慢。DIFF V2还提高了注意力模块在解码时的算术强度。
在预训练阶段,使用H系列和B系列GPU上的FlashAttention内核时,DIFF V2引入的吞吐量减少可忽略不计。对于长序列预填充,建议将DIFF V2与YOCO等技术结合使用,这些技术已能将预填充复杂度降低到线性时间。从参数和计算量角度看,DIFF V2相比具有相同查询维度的Transformer模型,输出投影的参数和浮点运算更少。