transformer

技术27 篇资讯

2026年1月20日

Llama 4 Maverick 和 Scout 模型在 Hugging Face 发布

Meta 在 Hugging Face 上发布了 Llama 4 Maverick 和 Scout 两款大型语言模型。这两款模型均采用混合专家架构，支持原生多模态处理，并已集成到 Hugging Face 生态系统中。Llama 4 Scout 设计为可在单 GPU 上部署，而 Maverick 提供 BF16 和 FP8 格式，适用于不同硬件需求。

Hugging Face 推出高速 Whisper 转录推理端点

Hugging Face 今天发布了基于 OpenAI Whisper 模型的新推理端点。该端点利用 vLLM 项目优化，在 NVIDIA GPU 上实现高达 8 倍的性能提升。用户可通过一键部署，以经济高效的方式使用专用转录模型。

微软发布Differential Transformer V2，提升AI模型解码效率

微软发布了Differential Transformer V2，这是一种改进的Transformer架构。该版本通过增加查询头数量但不增加键值头，提升了大型语言模型的解码速度。DIFF V2无需自定义内核，可在标准GPU上高效运行。

Falcon-H1：混合头语言模型家族重新定义效率与性能

Falcon-H1系列包含六款开源模型，参数量从0.5B到34B不等。该系列采用混合架构，结合了Transformer注意力机制与状态空间模型。所有模型均基于Apache 2.0许可发布，支持256K上下文长度和18种语言。

2026年1月19日

Holo1：新型GUI自动化视觉语言模型家族发布，赋能Surfer-H代理

H公司发布了Holo1，这是一个专为深度网络UI理解和精确定位设计的开源动作视觉语言模型家族。该家族包括Holo1-3B和Holo1-7B模型，后者在常见UI定位基准测试中达到76.2%的平均准确率。Holo1模型基于Qwen2.5-VL架构，完全兼容transformers，并支持WebClick基准数据集。

SGLang 集成 Transformers 后端，提升 AI 模型推理性能

SGLang 现已支持 Hugging Face Transformers 作为后端。用户可在 SGLang 中直接运行任何 Transformers 兼容的模型。该集成旨在结合 Transformers 的灵活性与 SGLang 的高性能推理能力。

Gemma 3n 模型全面开源，支持多模态本地运行

Google 的 Gemma 3n 模型现已全面开源，可在主流开源库中使用。该模型原生支持图像、文本、音频和视频输入，专为本地硬件运行设计。发布两个版本，E2B 和 E4B，分别需要 2GB 和 3GB GPU 内存，性能超越传统参数规模模型。

NVIDIA NIM 加速 Hugging Face 上大量 LLM 的部署

NVIDIA 宣布 NIM 推理微服务现可加速部署 Hugging Face 上的超过 10 万个大型语言模型。NIM 提供单一 Docker 容器，支持多种 LLM 格式和推理框架，自动优化性能。用户需具备 NVIDIA GPU、Docker 和相应账户，以简化模型部署流程。

英伟达发布600万条多语言推理数据集

英伟达发布了包含600万条样本的多语言推理数据集，支持法语、西班牙语、德语、意大利语和日语五种语言。该数据集基于先前发布的英语推理数据翻译而成，旨在提升开源模型的推理能力。同时，英伟达还推出了Nemotron Nano 2 9B模型，采用混合Transformer-Mamba架构，提供可配置的思考预算以优化成本。

谷歌发布EmbeddingGemma，高效多语言嵌入模型

谷歌发布了EmbeddingGemma，这是一款高效的多语言嵌入模型。该模型拥有308M参数和2K上下文窗口，支持超过100种语言。在MTEB基准测试中，它是500M参数以下排名最高的纯文本多语言嵌入模型。

2026年1月18日

AI助力食物过敏研究：首个社区驱动实验室成立

全球约2.2亿人患有食物过敏，严重影响生活质量。AI模型如AlphaFold和AllergenAI正加速过敏蛋白识别与药物发现。AI for Food Allergies项目宣布建立首个社区驱动研究实验室，旨在通过开放协作项目推动该领域发展。

Sentence Transformers 库正式加入 Hugging Face

Sentence Transformers 库已从德国达姆施塔特工业大学的 UKP 实验室转移至 Hugging Face。该库是一个用于生成高质量语义嵌入的开源工具，自 2019 年发布以来被广泛用于 NLP 任务。Hugging Face 将提供基础设施支持，确保项目持续更新和发展。

DeepMind发布Aeneas模型，AI助力历史学家解读古罗马铭文

DeepMind在《自然》杂志发表论文，推出首个用于古铭文语境化的AI模型Aeneas。该模型能快速检索数千拉丁铭文，帮助历史学家解读和修复文本。Aeneas基于多模态生成神经网络，训练数据集包含超过17.6万条拉丁铭文。

Hugging Face与谷歌云深化合作，推动开放AI模型构建

Hugging Face宣布与谷歌云建立新的战略合作伙伴关系，旨在帮助企业利用开放模型构建自己的AI。双方将共同优化谷歌云平台上的模型部署和下载体验，包括创建CDN网关以加速模型访问。此次合作还将为Hugging Face用户提供更多谷歌云实例和成本效益。

英伟达发布PersonaPlex-7B-v1：专为自然全双工对话设计的实时语音模型

英伟达研究人员发布了PersonaPlex-7B-v1，这是一个全双工语音对话模型，旨在实现自然的语音交互和精确的角色控制。该模型采用单一Transformer架构，替代了传统的ASR-LLM-TTS级联流程，支持流式语音理解和生成，能够处理重叠语音和自然打断。PersonaPlex基于Moshi架构和Helium语言模型构建，使用真实和合成对话数据进行训练，以提升交互的自然性和适应性。

Transformers v5 发布：简化模型定义，支撑 AI 生态系统

Hugging Face 发布了 Transformers 库的 v5 版本，这是自 2020 年 v4 以来的重大更新。该库每日安装量从 v4 的 2 万次增长到 300 万次，总安装量已超过 12 亿次。v5 专注于简化模型定义、训练、推理和生产部署，支持超过 400 种模型架构。

2026年1月17日

普林斯顿Zlab发布LLM-Pruning Collection：基于JAX的大语言模型剪枝算法库

普林斯顿Zlab研究人员发布了LLM-Pruning Collection，这是一个基于JAX的开源库，整合了多种大语言模型剪枝算法。该库提供了统一的训练和评估框架，支持GPU和TPU，便于比较不同剪枝方法。它包含Minitron、ShortGPT、Wanda、SparseGPT、Magnitude、Sheared Llama和LLM-Pruner等算法实现。

Falcon-H1-Arabic发布：混合架构推动阿拉伯语AI边界

Falcon-H1-Arabic是先进的阿拉伯语AI模型系列，基于混合Mamba-Transformer架构。该系列包括3B、7B和34B参数模型，支持高达256K上下文长度。模型在阿拉伯语自然语言处理任务中表现优异，适用于从边缘设备到企业应用。

2026年1月16日

WEKA提出令牌仓储方案突破AI内存墙

随着AI代理从实验转向生产，GPU内存不足成为关键瓶颈，导致KV缓存溢出和性能下降。WEKA CTO指出，长上下文序列可能消耗40GB内存，引发高达40%的冗余计算开销。公司提出令牌仓储方法，旨在解决内存限制，支持状态化AI系统。

英伟达开源KVzap：一种近乎无损的KV缓存剪枝方法

英伟达开源了KVzap，这是一种先进的KV缓存剪枝方法，能实现2到4倍的压缩。KVzap使用小型代理模型替代昂贵的评分机制，直接基于隐藏状态预测重要性分数。该方法在保持模型准确性的同时，显著减少了内存占用，适用于长上下文部署。

2026年1月15日

阿布扎比TII发布Falcon H1R-7B：7B参数推理模型在数学和编码任务中超越更大模型

阿布扎比技术创新研究所发布了Falcon H1R-7B推理模型，该模型仅7B参数，在数学和编码基准测试中超越了许多14B至47B模型。它采用混合Transformer与Mamba2架构，支持256k上下文窗口，并通过两阶段训练优化推理能力。模型在Hugging Face上可用，专为链式思维推理设计。

研究发现大语言模型中层自发模拟人脑进化过程

一项新研究揭示大语言模型中层神经元能自发模拟人脑进化过程。研究人员通过分析模型内部表示，发现其与人类认知结构相似。这一发现有助于理解AI模型如何形成复杂推理能力。

2026年1月14日

英伟达推出ICMS平台，为智能体AI扩展提供新内存架构

随着基础模型参数达万亿级，智能体AI的长期记忆存储成为瓶颈。英伟达在Rubin架构中推出推理上下文内存存储平台。该平台创建专门存储层，提升长上下文工作负载吞吐量达5倍。

DeepSeek提出条件记忆机制，解决LLM静态查询的GPU资源浪费问题

DeepSeek发布条件记忆研究，解决大语言模型静态信息检索的GPU计算浪费问题。该研究引入Engram模块，将静态模式检索与动态推理分离。实验显示，在复杂推理基准测试中准确率从70%提升至74%。

谷歌研究发现重复提示可提升LLM非推理任务准确率高达76%

谷歌研究团队发布论文，发现简单重复输入提示能显著提升大型语言模型在非推理任务中的性能。该方法在包括Gemini、GPT-4o、Claude和DeepSeek在内的多个主流模型上均有效，且对生成速度几乎没有影响。研究显示，在70项基准测试中，重复提示在47项中获胜，零失败。

2026年1月13日

英伟达发布Rubin架构，强调网络协同设计以提升AI性能

英伟达在CES上意外发布了Vera Rubin架构，预计今年晚些时候交付客户。该架构相比Blackwell架构，推理成本降低10倍，训练特定模型所需GPU数量减少4倍。Rubin平台包含六款新芯片，包括GPU、CPU和四款网络芯片，通过协同设计实现性能优势。

Lightricks 开源 AI 视频模型 LTX-2，挑战 Sora 和 Veo

以色列公司 Lightricks 开源了 190 亿参数的 AI 视频模型 LTX-2。该模型能从文本提示生成长达 20 秒的同步音视频内容，包括口型同步语音和背景音效。LTX-2 声称比竞争对手模型快 18 倍，并支持高达 4K 分辨率的视频生成。