DeepSeek团队发布14页技术论文,探讨大语言模型与硬件架构的协同设计。论文以DeepSeek-V3为例,展示如何通过硬件感知设计克服内存和计算瓶颈。研究聚焦硬件特性对模型架构的影响,为低成本大规模训练提供实践指导。