gpu
硬件57 篇资讯Llama 4 Maverick 和 Scout 模型在 Hugging Face 发布
Meta 在 Hugging Face 上发布了 Llama 4 Maverick 和 Scout 两款大型语言模型。这两款模型均采用混合专家架构,支持原生多模态处理,并已集成到 Hugging Face 生态系统中。Llama 4 Scout 设计为可在单 GPU 上部署,而 Maverick 提供 BF16 和 FP8 格式,适用于不同硬件需求。
智谱AI开源新一代GLM模型并推出国际平台Z.ai
智谱AI宣布全面开源其新一代通用语言模型GLM-4系列和GLM-Z1推理模型。GLM-Z1推理速度比DeepSeek-R1快8倍,达到每秒200个令牌。公司还推出了面向国际的平台Z.ai,提供免费访问和API服务。
Hugging Face开源PipelineRL,解决大模型强化学习吞吐与数据收集权衡
Hugging Face开源了实验性强化学习实现PipelineRL,旨在解决大规模语言模型强化学习中推理吞吐量与在线数据收集之间的权衡问题。PipelineRL的核心创新是在训练过程中进行飞行权重更新,允许推理服务器保持高吞吐量,同时最小化用于生成数据的模型权重与最新更新权重之间的延迟。该方法在Open-Reasoner-Zero数据集上训练7B和32B模型时,在AIME 2024和MATH 500基准测试中取得了竞争性结果,且使用更简单的强化学习算法。
Meta 在 Hugging Face Hub 发布 Llama Guard 4 安全模型
Meta 发布了 Llama Guard 4,这是一个 120 亿参数的多模态安全模型。该模型旨在检测图像和文本中的不当内容,支持多语言输入。同时发布的还有两个新的 Llama Prompt Guard 2 模型,专注于检测提示注入和越狱攻击。
英特尔发布AutoRound:面向大语言模型和视觉语言模型的先进量化工具
英特尔推出了AutoRound,这是一种专为大语言模型和视觉语言模型设计的后训练量化方法。该工具通过有符号梯度下降优化权重舍入和裁剪范围,支持INT2至INT8的低比特量化,在保持高精度的同时减少模型大小和推理延迟。AutoRound兼容多种模型架构和设备,并提供快速量化能力,例如在A100 GPU上量化72B模型仅需37分钟。
Hugging Face 推出高速 Whisper 转录推理端点
Hugging Face 今天发布了基于 OpenAI Whisper 模型的新推理端点。该端点利用 vLLM 项目优化,在 NVIDIA GPU 上实现高达 8 倍的性能提升。用户可通过一键部署,以经济高效的方式使用专用转录模型。
DeepSeek-V3新论文发布:揭秘硬件感知协同设计实现低成本大模型训练
DeepSeek团队发布14页技术论文,探讨大语言模型与硬件架构的协同设计。论文以DeepSeek-V3为例,展示如何通过硬件感知设计克服内存和计算瓶颈。研究聚焦硬件特性对模型架构的影响,为低成本大规模训练提供实践指导。
微软发布Differential Transformer V2,提升AI模型解码效率
微软发布了Differential Transformer V2,这是一种改进的Transformer架构。该版本通过增加查询头数量但不增加键值头,提升了大型语言模型的解码速度。DIFF V2无需自定义内核,可在标准GPU上高效运行。
微软发布 OptiMind:20B 参数模型将自然语言转化为优化模型
微软研究发布了 OptiMind,这是一个基于 AI 的系统,能将复杂决策问题的自然语言描述转化为优化求解器可执行的数学公式。该模型拥有 200 亿参数,采用专家混合架构,输出包括数学公式和可执行的 Python 代码。OptiMind 旨在解决运筹学中长期存在的瓶颈,减少专家建模需求。
TRL 集成 vLLM 实现 GPU 共享,提升大模型训练效率
TRL 库在 v0.18.0 版本中集成了 vLLM,支持训练和推理在同一 GPU 上协同运行。这一改进消除了 GPU 闲置时间,减少了额外硬件需求。该功能适用于 GRPO 等在线学习方法,提升了大规模模型训练的吞吐量。
Hugging Face 与 NVIDIA 合作推出训练集群即服务
Hugging Face 与 NVIDIA 在 GTC Paris 上宣布推出训练集群即服务。该服务旨在让全球研究机构更容易访问大型 GPU 集群。用户可按需请求 GPU 集群,仅支付训练期间的费用。
Featherless AI 成为 Hugging Face Hub 推理服务提供商
Featherless AI 已加入 Hugging Face Hub 作为推理服务提供商。该提供商支持多种文本和对话模型,包括 DeepSeek、Meta 和 Google 的最新开源模型。用户可通过网站界面或客户端 SDK 轻松使用 Featherless AI 进行无服务器推理。
Groq 成为 Hugging Face 推理服务提供商
Groq 现已作为推理服务提供商加入 Hugging Face Hub。Groq 支持多种文本和对话模型,包括 Meta Llama 4 和 Qwen QWQ-32B 等开源模型。其核心技术是语言处理单元,旨在为大型语言模型提供低延迟和高吞吐量的推理服务。
Gemma 3n 模型全面开源,支持多模态本地运行
Google 的 Gemma 3n 模型现已全面开源,可在主流开源库中使用。该模型原生支持图像、文本、音频和视频输入,专为本地硬件运行设计。发布两个版本,E2B 和 E4B,分别需要 2GB 和 3GB GPU 内存,性能超越传统参数规模模型。
Nous Research 发布 NousCoder-14B:基于 Qwen3-14B 的强化学习编程模型
Nous Research 发布了 NousCoder-14B,这是一个基于 Qwen3-14B 通过强化学习后训练的竞争性编程模型。在 LiveCodeBench v6 基准测试中,该模型达到 67.87% 的 Pass@1 准确率,比 Qwen3-14B 基线高出 7.08 个百分点。模型权重已在 Hugging Face 上以 Apache 2.0 许可证发布。
租用8张H100复现DeepSeek mHC,性能超越官方报告
一位开发者租用8张英伟达H100 GPU,成功复现了深度求索的mHC模型。复现结果显示,模型性能优于官方报告中的基准。这一成果展示了开源AI模型复现的可行性和社区贡献。
NVIDIA NIM 加速 Hugging Face 上大量 LLM 的部署
NVIDIA 宣布 NIM 推理微服务现可加速部署 Hugging Face 上的超过 10 万个大型语言模型。NIM 提供单一 Docker 容器,支持多种 LLM 格式和推理框架,自动优化性能。用户需具备 NVIDIA GPU、Docker 和相应账户,以简化模型部署流程。
Hugging Face 发布轻量级实验跟踪库 Trackio
Hugging Face 推出了开源实验跟踪库 Trackio,用于机器学习模型训练。Trackio 提供本地仪表盘,并与 Hugging Face Spaces 集成,便于分享和协作。该库可作为 wandb 的替代品,支持标准 API 调用。
NVIDIA AI-Q 在 DeepResearch Bench 评测中登顶开源模型榜首
NVIDIA 的 AI-Q 蓝本在 Hugging Face DeepResearch Bench 的“LLM with Search”排行榜中位列第一。AI-Q 融合了 Llama 3.3-70B Instruct 和 Llama-3.3-Nemotron-Super-49B-v1.5 两个开源大语言模型,支持长上下文检索和代理推理。该架构还包括 NVIDIA NeMo Retriever 和 NeMo Agent 工具包,用于可扩展的多模态搜索和复杂工作流编排。
OpenAI发布GPT OSS开源模型系列,包含117B和21B两个版本
OpenAI发布了全新的开源模型系列GPT OSS,包含117B和21B两个参数规模的模型。这两个模型采用专家混合架构和4位量化方案,支持推理和工具使用。模型采用Apache 2.0许可证,旨在促进AI技术的广泛可及性。
Arm发布Neural Super Sampling AI超采样技术
Arm公司发布了Neural Super Sampling下一代AI超采样解决方案。该技术专为移动设备实时性能设计,可将低分辨率渲染提升至高分辨率。NSS已集成到虚幻引擎,供开发者开始实验。
Arm 与 ExecuTorch 0.7 将生成式 AI 推向大众
Arm 宣布 ExecuTorch 0.7 测试版将默认启用 KleidiAI 加速层。该技术利用 Arm CPU 的 SDOT 指令优化矩阵乘法,无需开发者修改代码。这使得生成式 AI 模型能在旧款手机和边缘设备上高效运行。
SAIR 数据集发布:AI 赋能药物研发的结构智能突破
SandboxAQ 发布了 SAIR 数据集,这是最大的共折叠 3D 蛋白质-配体结构数据集,包含超过 500 万个 AI 生成的高精度结构。该数据集在 Hugging Face 上免费开放,链接了分子结构与药物效力,旨在加速药物研发。SAIR 的创建利用了高性能 AI 计算,耗时超过 13 万 GPU 小时,使用 Boltz1 模型在 NVIDIA H100 处理器上完成。
Public AI 成为 Hugging Face 推理服务提供商
Public AI 现已作为推理服务提供商加入 Hugging Face Hub。该服务支持无服务器推理,可直接在模型页面使用。Public AI 是一个非营利开源项目,旨在支持公共 AI 模型构建者。
英伟达利用仿真技术提升AI芯片HPC性能以对抗AMD
英伟达在Rubin GPU中采用仿真技术提升双精度浮点计算性能,以增强高性能计算和科学计算应用。该技术通过CUDA库实现,可将FP64矩阵性能提升至200 teraFLOPS,是Blackwell加速器的4.4倍。AMD研究人员认为仿真技术在某些基准测试中表现良好,但在实际物理科学模拟中效果尚不明确,仍需进一步研究。
LeRobot v0.4.0 发布,增强开源机器人学习能力
LeRobot v0.4.0 发布了重大更新,包括可扩展的数据集 v3.0 和新模型 PI0.5 与 GR00T N1.5。该版本引入了插件系统以简化硬件集成,并支持 LIBERO 和 Meta-World 模拟环境。此外,还提供了多 GPU 训练支持和 Hugging Face 机器人学习课程。
Hugging Face 推出高效流式数据集,性能提升100倍
Hugging Face 优化了数据集库的流式加载功能,无需下载即可直接训练。改进后,启动请求减少100倍,数据解析速度提升10倍。这解决了大规模AI训练中的数据加载瓶颈问题。
Hugging Face与谷歌云深化合作,推动开放AI模型构建
Hugging Face宣布与谷歌云建立新的战略合作伙伴关系,旨在帮助企业利用开放模型构建自己的AI。双方将共同优化谷歌云平台上的模型部署和下载体验,包括创建CDN网关以加速模型访问。此次合作还将为Hugging Face用户提供更多谷歌云实例和成本效益。
Hugging Face TRL 集成 RapidFire AI,微调速度提升 20 倍
Hugging Face TRL 正式集成 RapidFire AI,加速大语言模型微调实验。该工具支持并发运行多个配置,在单 GPU 上实现近实时比较。内部基准显示,实验吞吐量比顺序方法提高约 16-24 倍。
llama.cpp 服务器新增模型管理功能
llama.cpp 服务器引入了路由器模式,支持动态加载、卸载和切换多个模型。该功能采用多进程架构,确保模型间独立运行,避免相互影响。用户可通过命令行或 Web UI 轻松管理模型,无需重启服务器。
英伟达在CES 2026展示DGX Spark与Reachy Mini打造现实世界AI智能体
英伟达在CES 2026上发布了多款开源模型,包括Nemotron推理大语言模型和Isaac GR00T N1.6视觉语言模型。黄仁勋演示了如何利用DGX Spark处理能力和Reachy Mini机器人创建可交互的AI智能体。该演示提供了使用DGX Spark和Reachy Mini在家复现的步骤指南。
普林斯顿Zlab发布LLM-Pruning Collection:基于JAX的大语言模型剪枝算法库
普林斯顿Zlab研究人员发布了LLM-Pruning Collection,这是一个基于JAX的开源库,整合了多种大语言模型剪枝算法。该库提供了统一的训练和评估框架,支持GPU和TPU,便于比较不同剪枝方法。它包含Minitron、ShortGPT、Wanda、SparseGPT、Magnitude、Sheared Llama和LLM-Pruner等算法实现。
英伟达DGX Spark与DGX Station在CES展示本地运行前沿AI模型能力
英伟达在CES展会上展示了DGX Spark和DGX Station两款桌面AI超级计算机。这些系统基于Grace Blackwell架构,支持在本地运行从千亿到万亿参数的大型AI模型。DGX Station搭载GB300超级芯片,可运行包括Qwen3、DeepSeek-V3.2在内的多种前沿模型。
英伟达将BlueField网络安全与加速功能纳入企业AI工厂验证设计
英伟达扩展了企业AI工厂验证设计,以包含BlueField的网络安全和基础设施加速能力。该设计整合了多家合作伙伴的软件平台,旨在提升AI工厂的运行时保护和运营效率。BlueField通过专用处理器加速网络、存储和安全服务,确保AI工作负载的高性能与实时安全。
英伟达在CES发布Rubin平台与开放模型,推动AI多领域应用
英伟达CEO黄仁勋在CES 2026上宣布AI正扩展到所有领域和设备。他发布了Rubin AI平台,该平台已全面投产,可将AI代币生成成本降低约十分之一。同时,英伟达推出了用于自动驾驶开发的开放推理模型系列Alpamayo,作为其推动AI进入各领域的一部分。
NVIDIA RTX 加速 PC 端 4K AI 视频生成,LTX-2 与 ComfyUI 升级
NVIDIA 在 CES 上宣布了针对 GeForce RTX 设备的 AI 升级,包括 ComfyUI 集成 RTX Video Super Resolution 以加速 4K 视频生成。LTX-2 音频视频生成模型的开源版本获得 NVFP8 优化,支持本地生成 20 秒 4K 视频。通过 PyTorch-CUDA 优化和 NVFP4/NVFP8 精度支持,视频和图像生成 AI 性能提升高达 3 倍,VRAM 减少 60%。
英伟达发布Nemotron Speech ASR:专为低延迟语音代理设计的开源转录模型
英伟达发布了专为低延迟语音代理和实时字幕设计的流式英语转录模型Nemotron Speech ASR。该模型采用缓存感知的FastConformer编码器和RNNT解码器,支持可配置的上下文大小以控制延迟。在Hugging Face OpenASR基准测试中,模型在0.16秒块大小下词错误率约为7.84%。
WEKA提出令牌仓储方案突破AI内存墙
随着AI代理从实验转向生产,GPU内存不足成为关键瓶颈,导致KV缓存溢出和性能下降。WEKA CTO指出,长上下文序列可能消耗40GB内存,引发高达40%的冗余计算开销。公司提出令牌仓储方法,旨在解决内存限制,支持状态化AI系统。
微软谷歌大力招聘能源专家应对AI电力瓶颈
微软和谷歌等科技巨头正积极招聘能源领域专家,以应对AI发展中的电力短缺问题。自2022年以来,微软新增超570名能源员工,谷歌新增340名,亚马逊新增605名。微软CEO纳德拉指出,缺电比缺GPU更致命,电力供应已成为AI发展的关键瓶颈。
谷歌发布开源翻译模型TranslateGemma,支持55种语言
谷歌发布了开源翻译模型TranslateGemma系列,支持55种语言。该模型提供三种参数规模,适用于移动设备、笔记本电脑和云服务器。其12B版本在翻译质量上超越了更大规模的模型,尤其在低资源语言上表现突出。
超半数AI项目因基础设施复杂而搁浅
DDN联合谷歌云和Cognizant的研究报告显示,过去两年超半数AI项目因基础设施复杂被延迟或取消。约三分之二的美国企业决策者认为AI环境过于复杂难以管理。DDN CEO指出基础设施、电力和运营基础不足是主要挑战,导致项目延迟和GPU利用率低。
RISC-V 领军者 SiFive 加入 Nvidia NVLink Fusion 生态系统
RISC-V 芯片设计公司 SiFive 宣布支持 Nvidia 的 NVLink Fusion 互连技术。该技术用于连接 CPU 和 GPU,以构建统一的 AI 加速器。此举增强了 NVLink 在数据中心 AI 计算中的行业地位。
英伟达推出ICMS平台,为智能体AI扩展提供新内存架构
随着基础模型参数达万亿级,智能体AI的长期记忆存储成为瓶颈。英伟达在Rubin架构中推出推理上下文内存存储平台。该平台创建专门存储层,提升长上下文工作负载吞吐量达5倍。
DeepSeek提出条件记忆机制,解决LLM静态查询的GPU资源浪费问题
DeepSeek发布条件记忆研究,解决大语言模型静态信息检索的GPU计算浪费问题。该研究引入Engram模块,将静态模式检索与动态推理分离。实验显示,在复杂推理基准测试中准确率从70%提升至74%。
美国众议院通过法案,将远程GPU访问纳入出口管制
美国众议院以369-22票通过《远程访问安全法案》,将远程访问高端GPU等受控芯片纳入出口管制范围。此举旨在堵住中国公司通过云服务租用美国芯片的漏洞。法案仍需参议院通过和总统签署才能生效。
日本科技机构开发NVIDIA驱动的Moonshot机器人用于老年护理
日本科学技术振兴机构Moonshot项目利用NVIDIA技术开发AI驱动的老年护理机器人。这些机器人集成NVIDIA GPU和Jetson模块,用于执行烹饪、清洁和护理任务。项目旨在到205年实现自主学习的机器人融入日常生活。
AI助手助力伯克利粒子加速器保持稳定运行
劳伦斯伯克利国家实验室部署了名为加速器助手的AI系统,该系统基于大语言模型,用于支持高级光源粒子加速器的实验。加速器助手利用NVIDIA H100 GPU进行加速推理,能自主编写Python代码并解决问题,将实验设置时间减少100倍。该系统为粒子加速器和核设施等复杂科学基础设施提供了应用AI的蓝图。
英伟达要求中国客户预付H200订单款项
英伟达可能在本季度开始向中国客户销售H200 GPU,但要求预付全款且不提供退款。中国监管机构预计将批准H200的销售,但政策变化风险导致英伟达采取这一措施。尽管H200已推出两年,它仍是中国市场性能最强的芯片之一,吸引了大量订单。
英伟达Vera Rubin GPU将于2026年下半年发布,Blackwell架构性能持续提升
英伟达CEO黄仁勋在CES主题演讲中宣布,Vera Rubin GPU的推理和训练性能分别是Blackwell的5倍和3.5倍,但该芯片预计2026年下半年才上市。英伟达通过TensorRT-LLM引擎的优化,在三个月内将Blackwell GPU的推理性能提升了2.8倍。这些优化包括程序化依赖启动、全对全通信、多令牌预测和NVFP4格式,降低了每百万令牌的成本并提高了吞吐量。
人工大脑或引领超高效超级计算机发展
桑迪亚国家实验室的研究表明,神经形态计算机能高效解决偏微分方程等复杂数学问题。该研究在英特尔Loihi 2神经芯片上开发了NeuroFEM算法,实现了近理想的强扩展性。神经形态系统如Hala Point的能效可达15 TOPS/瓦,是英伟达Blackwell芯片的2.5倍。
英伟达发布Rubin架构,强调网络协同设计以提升AI性能
英伟达在CES上意外发布了Vera Rubin架构,预计今年晚些时候交付客户。该架构相比Blackwell架构,推理成本降低10倍,训练特定模型所需GPU数量减少4倍。Rubin平台包含六款新芯片,包括GPU、CPU和四款网络芯片,通过协同设计实现性能优势。
Lightricks 开源 AI 视频模型 LTX-2,挑战 Sora 和 Veo
以色列公司 Lightricks 开源了 190 亿参数的 AI 视频模型 LTX-2。该模型能从文本提示生成长达 20 秒的同步音视频内容,包括口型同步语音和背景音效。LTX-2 声称比竞争对手模型快 18 倍,并支持高达 4K 分辨率的视频生成。
中国研究人员诊断AI图像模型失语症,开发自愈框架
中国研究人员发现多模态AI模型存在理解与生成能力不匹配现象,将其称为传导性失语症。他们开发了UniCorn框架,让单一模型同时扮演提议者、求解者和评判者三个角色。该框架在复杂场景生成和空间理解任务上表现显著提升,甚至在某些基准测试中超越GPT-4o。
超大规模AI数据中心:2026年十大突破技术
超大规模AI数据中心正以革命性架构为AI模型提供算力,但能耗惊人。这些数据中心将数十万GPU芯片集成同步集群,构成巨型超级计算机。科技巨头投入数千亿美元建设,但高能耗带来环境与社区挑战。
英伟达Rubin平台实现机架级加密,提升企业AI安全
英伟达在CES 2026上宣布Vera Rubin NVL72平台,为72个GPU、36个CPU和整个NVLink结构提供加密。这是首个跨CPU、GPU和NVLink域的机架级机密计算平台。该技术允许企业通过加密验证安全,而非依赖云提供商的合同信任。
英伟达与礼来合作投资10亿美元,利用Vera Rubin GPU加速AI药物研发
英伟达与礼来宣布合作投资10亿美元建立联合创新实验室。双方将利用英伟达BioNeMo平台和Vera Rubin GPU加速AI药物研发。该实验室预计今年开放,旨在开发药物发现基础模型并优化相关流程。