DeepSeek团队发布了一篇14页的技术论文,DeepSeek CEO梁文锋为共同作者。这篇论文探讨了“AI架构的扩展挑战与硬件反思”,深入分析了大语言模型开发、训练与底层硬件基础设施之间的复杂关系。论文超越了DeepSeek-V3的架构细节,探索硬件感知的模型协同设计如何有效应对当前硬件的限制,最终实现低成本的大规模训练和推理。
大语言模型的快速扩展暴露了当前硬件架构的关键瓶颈,特别是在内存容量、计算效率和互连带宽方面。DeepSeek-V3在2048个NVIDIA H800 GPU集群上训练,作为一个引人注目的案例研究,展示了模型设计与硬件考虑之间的协同方法如何克服这些限制。这项研究聚焦于硬件架构与模型设计在实现经济高效的大规模训练和推理中的相互作用,旨在为高效扩展大语言模型而不牺牲性能或可访问性提供可操作的见解。
论文的重点领域包括硬件驱动的模型设计,分析硬件特性如FP8低精度计算和扩展网络属性如何影响DeepSeek-V3内的架构选择;硬件-模型相互依赖性,研究硬件能力如何塑造模型创新,以及大语言模型不断变化的需求如何驱动下一代硬件的要求;硬件开发的未来方向,从DeepSeek-V3中汲取实践见解,指导未来硬件和模型架构的协同设计,以实现可扩展且经济高效的AI系统。
DeepSeek-V3的设计原则直接应对核心扩展挑战。DeepSeek-V3包含多项关键架构创新,包括DeepSeekMoE架构和多头潜在注意力机制。这些设计直接应对扩展大语言模型的核心挑战:内存效率、成本效益和推理速度。
大语言模型的内存需求呈指数级增长,超过了HBM等高速内存的较慢增长。虽然多节点并行性提供了一种解决方案,但从源头优化内存使用仍然至关重要。DeepSeek通过多头潜在注意力机制解决这一瓶颈,该机制使用投影矩阵将所有注意力头的键值表示压缩成更小的潜在向量,与模型联合训练。在推理过程中,只需要缓存这个压缩的潜在向量,与存储每个头的完整键值缓存相比,显著减少了内存消耗。
除了多头潜在注意力机制,DeepSeek还强调了其他减少键值缓存大小的有价值技术,为未来内存高效注意力机制的进步提供灵感:共享键值,多个注意力头共享一组键值对,大幅压缩存储;窗口键值,限制键值缓存的上下文窗口;量化压缩,降低存储键值值的精度。