DeepSeek团队发布14页技术论文,探讨大语言模型与硬件架构的协同设计。论文以DeepSeek-V3为例,展示如何通过硬件感知设计克服内存和计算瓶颈。研究聚焦硬件特性对模型架构的影响,为低成本大规模训练提供实践指导。
中国研究人员发现多模态AI模型存在理解与生成能力不匹配现象,将其称为传导性失语症。他们开发了UniCorn框架,让单一模型同时扮演提议者、求解者和评判者三个角色。该框架在复杂场景生成和空间理解任务上表现显著提升,甚至在某些基准测试中超越GPT-4o。