llama

产品24 篇资讯
2026年1月20日

Llama 4 Maverick 和 Scout 模型在 Hugging Face 发布

Meta 在 Hugging Face 上发布了 Llama 4 Maverick 和 Scout 两款大型语言模型。这两款模型均采用混合专家架构,支持原生多模态处理,并已集成到 Hugging Face 生态系统中。Llama 4 Scout 设计为可在单 GPU 上部署,而 Maverick 提供 BF16 和 FP8 格式,适用于不同硬件需求。

20:53

Hugging Face与Cloudflare合作,通过FastRTC实现无缝实时语音视频

Hugging Face与Cloudflare宣布合作,为FastRTC开发者提供企业级WebRTC基础设施。开发者可使用Hugging Face令牌免费每月流式传输10GB数据。该合作旨在简化AI开发者构建低延迟音频视频应用的过程。

20:51

Meta 在 Hugging Face Hub 发布 Llama Guard 4 安全模型

Meta 发布了 Llama Guard 4,这是一个 120 亿参数的多模态安全模型。该模型旨在检测图像和文本中的不当内容,支持多语言输入。同时发布的还有两个新的 Llama Prompt Guard 2 模型,专注于检测提示注入和越狱攻击。

20:42

英特尔发布AutoRound:面向大语言模型和视觉语言模型的先进量化工具

英特尔推出了AutoRound,这是一种专为大语言模型和视觉语言模型设计的后训练量化方法。该工具通过有符号梯度下降优化权重舍入和裁剪范围,支持INT2至INT8的低比特量化,在保持高精度的同时减少模型大小和推理延迟。AutoRound兼容多种模型架构和设备,并提供快速量化能力,例如在A100 GPU上量化72B模型仅需37分钟。

20:41
2026年1月19日

Groq 成为 Hugging Face 推理服务提供商

Groq 现已作为推理服务提供商加入 Hugging Face Hub。Groq 支持多种文本和对话模型,包括 Meta Llama 4 和 Qwen QWQ-32B 等开源模型。其核心技术是语言处理单元,旨在为大型语言模型提供低延迟和高吞吐量的推理服务。

20:43

Gemma 3n 模型全面开源,支持多模态本地运行

Google 的 Gemma 3n 模型现已全面开源,可在主流开源库中使用。该模型原生支持图像、文本、音频和视频输入,专为本地硬件运行设计。发布两个版本,E2B 和 E4B,分别需要 2GB 和 3GB GPU 内存,性能超越传统参数规模模型。

20:39

NVIDIA Llama Nemotron Nano VLM 模型登陆 Hugging Face Hub

NVIDIA 发布了 Llama Nemotron Nano VLM 模型,这是一个基于 Llama 架构的视觉语言模型。该模型已上传至 Hugging Face Hub,供开发者免费下载和使用。它支持图像理解和文本生成任务,适用于多模态 AI 应用。

20:38

NVIDIA AI-Q 在 DeepResearch Bench 评测中登顶开源模型榜首

NVIDIA 的 AI-Q 蓝本在 Hugging Face DeepResearch Bench 的“LLM with Search”排行榜中位列第一。AI-Q 融合了 Llama 3.3-70B Instruct 和 Llama-3.3-Nemotron-Super-49B-v1.5 两个开源大语言模型,支持长上下文检索和代理推理。该架构还包括 NVIDIA NeMo Retriever 和 NeMo Agent 工具包,用于可扩展的多模态搜索和复杂工作流编排。

09:25

Arm 与 ExecuTorch 0.7 将生成式 AI 推向大众

Arm 宣布 ExecuTorch 0.7 测试版将默认启用 KleidiAI 加速层。该技术利用 Arm CPU 的 SDOT 指令优化矩阵乘法,无需开发者修改代码。这使得生成式 AI 模型能在旧款手机和边缘设备上高效运行。

09:22
2026年1月18日

IBM 发布 Granite 4.0 Nano 系列小型 AI 模型

IBM 发布了 Granite 4.0 Nano 系列模型,这是其最小的 AI 模型,专为边缘和设备端应用设计。该系列包括 1B 和 350M 参数版本,采用混合架构,在 Apache 2.0 许可下发布。模型在知识、数学、代码和安全基准测试中表现优异,支持 vLLM 和 llama.cpp 等运行时。

20:35

AnyLanguageModel 发布:为苹果平台提供统一本地与远程 LLM API

AnyLanguageModel 是一个 Swift 包,旨在简化苹果平台上大型语言模型的集成。它提供与苹果 Foundation Models 框架相同的 API,支持本地和云端模型。该工具支持多种提供商,包括 Core ML、MLX、OpenAI 和 Anthropic,以降低开发门槛。

09:20

OVHcloud成为Hugging Face推理服务提供商

OVHcloud正式成为Hugging Face Hub支持的推理服务提供商。该服务提供对GPT-OSS、Qwen3、DeepSeek R1和Llama等开源模型的访问。OVHcloud AI端点提供完全托管的无服务器推理服务,起价为每百万token 0.04欧元。

09:17

Transformers v5 发布:简化模型定义,支撑 AI 生态系统

Hugging Face 发布了 Transformers 库的 v5 版本,这是自 2020 年 v4 以来的重大更新。该库每日安装量从 v4 的 2 万次增长到 300 万次,总安装量已超过 12 亿次。v5 专注于简化模型定义、训练、推理和生产部署,支持超过 400 种模型架构。

09:15

llama.cpp 服务器新增模型管理功能

llama.cpp 服务器引入了路由器模式,支持动态加载、卸载和切换多个模型。该功能采用多进程架构,确保模型间独立运行,避免相互影响。用户可通过命令行或 Web UI 轻松管理模型,无需重启服务器。

09:11
2026年1月17日

普林斯顿Zlab发布LLM-Pruning Collection:基于JAX的大语言模型剪枝算法库

普林斯顿Zlab研究人员发布了LLM-Pruning Collection,这是一个基于JAX的开源库,整合了多种大语言模型剪枝算法。该库提供了统一的训练和评估框架,支持GPU和TPU,便于比较不同剪枝方法。它包含Minitron、ShortGPT、Wanda、SparseGPT、Magnitude、Sheared Llama和LLM-Pruner等算法实现。

20:46

英伟达DGX Spark与DGX Station在CES展示本地运行前沿AI模型能力

英伟达在CES展会上展示了DGX Spark和DGX Station两款桌面AI超级计算机。这些系统基于Grace Blackwell架构,支持在本地运行从千亿到万亿参数的大型AI模型。DGX Station搭载GB300超级芯片,可运行包括Qwen3、DeepSeek-V3.2在内的多种前沿模型。

20:42

NVIDIA RTX 加速 PC 端 4K AI 视频生成,LTX-2 与 ComfyUI 升级

NVIDIA 在 CES 上宣布了针对 GeForce RTX 设备的 AI 升级,包括 ComfyUI 集成 RTX Video Super Resolution 以加速 4K 视频生成。LTX-2 音频视频生成模型的开源版本获得 NVFP8 优化,支持本地生成 20 秒 4K 视频。通过 PyTorch-CUDA 优化和 NVFP4/NVFP8 精度支持,视频和图像生成 AI 性能提升高达 3 倍,VRAM 减少 60%。

20:39

Liquid AI 发布 LFM2.5:紧凑型 AI 模型家族,专为设备端智能体设计

Liquid AI 推出了 LFM2.5,这是一个基于 LFM2 架构的新一代小型基础模型系列,专注于设备和边缘部署。该系列包括 LFM2.5-1.2B-Base 和 LFM2.5-1.2B-Instruct,并扩展到日语、视觉语言和音频语言变体。模型已在 Hugging Face 上以开放权重发布,并通过 LEAP 平台提供。

20:34

OpenAI 推动其 API 格式成为行业标准

OpenAI 推出名为 Open Responses 的开放接口,旨在统一不同提供商的 AI 模型 API 格式。该项目基于 OpenAI 的 Responses API,允许开发者编写一次代码,即可与任何 AI 模型兼容。目前,Google、Anthropic 和 Meta 的 API 格式各异,导致开发者在切换模型时需重写代码,而 Open Responses 试图通过共享请求、响应、流式传输和工具调用格式来解决这一问题。Vercel、Hugging Face、LM Studio、Ollama 和 vLLM 已加入支持。此举若成功,将使 OpenAI 受益,因为其 API 可能成为默认标准,竞争对手需适应其格式,而现有 OpenAI 客户无需更改代码。OpenAI 通过“开放”标签展示合作精神,尽管未分享超出已公开技术的更多内容。

09:08