llama

产品24 篇资讯

2026年1月20日

Llama 4 Maverick 和 Scout 模型在 Hugging Face 发布

Meta 在 Hugging Face 上发布了 Llama 4 Maverick 和 Scout 两款大型语言模型。这两款模型均采用混合专家架构，支持原生多模态处理，并已集成到 Hugging Face 生态系统中。Llama 4 Scout 设计为可在单 GPU 上部署，而 Maverick 提供 BF16 和 FP8 格式，适用于不同硬件需求。

Hugging Face与Cloudflare合作，通过FastRTC实现无缝实时语音视频

Hugging Face与Cloudflare宣布合作，为FastRTC开发者提供企业级WebRTC基础设施。开发者可使用Hugging Face令牌免费每月流式传输10GB数据。该合作旨在简化AI开发者构建低延迟音频视频应用的过程。

Meta 在 Hugging Face Hub 发布 Llama Guard 4 安全模型

Meta 发布了 Llama Guard 4，这是一个 120 亿参数的多模态安全模型。该模型旨在检测图像和文本中的不当内容，支持多语言输入。同时发布的还有两个新的 Llama Prompt Guard 2 模型，专注于检测提示注入和越狱攻击。

英特尔发布AutoRound：面向大语言模型和视觉语言模型的先进量化工具

英特尔推出了AutoRound，这是一种专为大语言模型和视觉语言模型设计的后训练量化方法。该工具通过有符号梯度下降优化权重舍入和裁剪范围，支持INT2至INT8的低比特量化，在保持高精度的同时减少模型大小和推理延迟。AutoRound兼容多种模型架构和设备，并提供快速量化能力，例如在A100 GPU上量化72B模型仅需37分钟。

2026年1月19日

Groq 成为 Hugging Face 推理服务提供商

Groq 现已作为推理服务提供商加入 Hugging Face Hub。Groq 支持多种文本和对话模型，包括 Meta Llama 4 和 Qwen QWQ-32B 等开源模型。其核心技术是语言处理单元，旨在为大型语言模型提供低延迟和高吞吐量的推理服务。

Gemma 3n 模型全面开源，支持多模态本地运行

Google 的 Gemma 3n 模型现已全面开源，可在主流开源库中使用。该模型原生支持图像、文本、音频和视频输入，专为本地硬件运行设计。发布两个版本，E2B 和 E4B，分别需要 2GB 和 3GB GPU 内存，性能超越传统参数规模模型。

NVIDIA Llama Nemotron Nano VLM 模型登陆 Hugging Face Hub

NVIDIA 发布了 Llama Nemotron Nano VLM 模型，这是一个基于 Llama 架构的视觉语言模型。该模型已上传至 Hugging Face Hub，供开发者免费下载和使用。它支持图像理解和文本生成任务，适用于多模态 AI 应用。

NVIDIA AI-Q 在 DeepResearch Bench 评测中登顶开源模型榜首

NVIDIA 的 AI-Q 蓝本在 Hugging Face DeepResearch Bench 的“LLM with Search”排行榜中位列第一。AI-Q 融合了 Llama 3.3-70B Instruct 和 Llama-3.3-Nemotron-Super-49B-v1.5 两个开源大语言模型，支持长上下文检索和代理推理。该架构还包括 NVIDIA NeMo Retriever 和 NeMo Agent 工具包，用于可扩展的多模态搜索和复杂工作流编排。

Arm 与 ExecuTorch 0.7 将生成式 AI 推向大众

Arm 宣布 ExecuTorch 0.7 测试版将默认启用 KleidiAI 加速层。该技术利用 Arm CPU 的 SDOT 指令优化矩阵乘法，无需开发者修改代码。这使得生成式 AI 模型能在旧款手机和边缘设备上高效运行。

2026年1月18日

IBM 发布 Granite 4.0 Nano 系列小型 AI 模型

IBM 发布了 Granite 4.0 Nano 系列模型，这是其最小的 AI 模型，专为边缘和设备端应用设计。该系列包括 1B 和 350M 参数版本，采用混合架构，在 Apache 2.0 许可下发布。模型在知识、数学、代码和安全基准测试中表现优异，支持 vLLM 和 llama.cpp 等运行时。

AnyLanguageModel 发布：为苹果平台提供统一本地与远程 LLM API

AnyLanguageModel 是一个 Swift 包，旨在简化苹果平台上大型语言模型的集成。它提供与苹果 Foundation Models 框架相同的 API，支持本地和云端模型。该工具支持多种提供商，包括 Core ML、MLX、OpenAI 和 Anthropic，以降低开发门槛。

OVHcloud成为Hugging Face推理服务提供商

OVHcloud正式成为Hugging Face Hub支持的推理服务提供商。该服务提供对GPT-OSS、Qwen3、DeepSeek R1和Llama等开源模型的访问。OVHcloud AI端点提供完全托管的无服务器推理服务，起价为每百万token 0.04欧元。

Transformers v5 发布：简化模型定义，支撑 AI 生态系统

Hugging Face 发布了 Transformers 库的 v5 版本，这是自 2020 年 v4 以来的重大更新。该库每日安装量从 v4 的 2 万次增长到 300 万次，总安装量已超过 12 亿次。v5 专注于简化模型定义、训练、推理和生产部署，支持超过 400 种模型架构。

llama.cpp 服务器新增模型管理功能

llama.cpp 服务器引入了路由器模式，支持动态加载、卸载和切换多个模型。该功能采用多进程架构，确保模型间独立运行，避免相互影响。用户可通过命令行或 Web UI 轻松管理模型，无需重启服务器。

2026年1月17日

普林斯顿Zlab发布LLM-Pruning Collection：基于JAX的大语言模型剪枝算法库

普林斯顿Zlab研究人员发布了LLM-Pruning Collection，这是一个基于JAX的开源库，整合了多种大语言模型剪枝算法。该库提供了统一的训练和评估框架，支持GPU和TPU，便于比较不同剪枝方法。它包含Minitron、ShortGPT、Wanda、SparseGPT、Magnitude、Sheared Llama和LLM-Pruner等算法实现。

英伟达DGX Spark与DGX Station在CES展示本地运行前沿AI模型能力

英伟达在CES展会上展示了DGX Spark和DGX Station两款桌面AI超级计算机。这些系统基于Grace Blackwell架构，支持在本地运行从千亿到万亿参数的大型AI模型。DGX Station搭载GB300超级芯片，可运行包括Qwen3、DeepSeek-V3.2在内的多种前沿模型。

NVIDIA RTX 加速 PC 端 4K AI 视频生成，LTX-2 与 ComfyUI 升级

NVIDIA 在 CES 上宣布了针对 GeForce RTX 设备的 AI 升级，包括 ComfyUI 集成 RTX Video Super Resolution 以加速 4K 视频生成。LTX-2 音频视频生成模型的开源版本获得 NVFP8 优化，支持本地生成 20 秒 4K 视频。通过 PyTorch-CUDA 优化和 NVFP4/NVFP8 精度支持，视频和图像生成 AI 性能提升高达 3 倍，VRAM 减少 60%。

Liquid AI 发布 LFM2.5：紧凑型 AI 模型家族，专为设备端智能体设计

Liquid AI 推出了 LFM2.5，这是一个基于 LFM2 架构的新一代小型基础模型系列，专注于设备和边缘部署。该系列包括 LFM2.5-1.2B-Base 和 LFM2.5-1.2B-Instruct，并扩展到日语、视觉语言和音频语言变体。模型已在 Hugging Face 上以开放权重发布，并通过 LEAP 平台提供。

OpenAI 推动其 API 格式成为行业标准

OpenAI 推出名为 Open Responses 的开放接口，旨在统一不同提供商的 AI 模型 API 格式。该项目基于 OpenAI 的 Responses API，允许开发者编写一次代码，即可与任何 AI 模型兼容。目前，Google、Anthropic 和 Meta 的 API 格式各异，导致开发者在切换模型时需重写代码，而 Open Responses 试图通过共享请求、响应、流式传输和工具调用格式来解决这一问题。Vercel、Hugging Face、LM Studio、Ollama 和 vLLM 已加入支持。此举若成功，将使 OpenAI 受益，因为其 API 可能成为默认标准，竞争对手需适应其格式，而现有 OpenAI 客户无需更改代码。OpenAI 通过“开放”标签展示合作精神，尽管未分享超出已公开技术的更多内容。

2026年1月16日

英伟达开源KVzap：一种近乎无损的KV缓存剪枝方法

英伟达开源了KVzap，这是一种先进的KV缓存剪枝方法，能实现2到4倍的压缩。KVzap使用小型代理模型替代昂贵的评分机制，直接基于隐藏状态预测重要性分数。该方法在保持模型准确性的同时，显著减少了内存占用，适用于长上下文部署。

2026年1月14日

AI公司卷入美国军事行动：从抵制到合作的转变

2024年初，Anthropic、Google、Meta和OpenAI曾一致反对其AI工具用于军事目的。但一年内，这些公司纷纷改变立场，允许或合作军事应用。这一转变与AI模型的高昂开发成本及地缘政治竞争加剧有关。

2026年1月13日

AI助手助力伯克利粒子加速器保持稳定运行

劳伦斯伯克利国家实验室部署了名为加速器助手的AI系统，该系统基于大语言模型，用于支持高级光源粒子加速器的实验。加速器助手利用NVIDIA H100 GPU进行加速推理，能自主编写Python代码并解决问题，将实验设置时间减少100倍。该系统为粒子加速器和核设施等复杂科学基础设施提供了应用AI的蓝图。

研究人员发现商业AI模型可完整输出《哈利·波特》书籍

斯坦福和耶鲁大学的研究人员测试了Claude 3.7 Sonnet、GPT-4.1、Gemini 2.5 Pro和Grok 3等商业AI模型。他们发现这些模型能记忆并输出受版权保护的内容，如《哈利·波特》书籍。这一发现涉及AI模型训练数据使用和版权侵权的法律问题。

Orchestral AI 发布新框架，简化 LLM 编排以支持可重复研究

研究人员 Alexander 和 Jacob Roman 发布了 Orchestral AI 框架，旨在替代 LangChain 等复杂工具。该框架采用同步执行模型，确保 AI 代理行为具有确定性，适用于科学实验。它支持多提供商 LLM，并提供成本跟踪和 LaTeX 导出等功能。