英伟达DGX Spark与DGX Station在CES展示本地运行前沿AI模型能力

3 天前·来源:NVIDIA AI Blog
英伟达AI硬件Grace Blackwell开源模型CES

英伟达在CES展会上展示了DGX Spark和DGX Station两款桌面AI超级计算机。这些系统基于Grace Blackwell架构,支持在本地运行从千亿到万亿参数的大型AI模型。DGX Station搭载GB300超级芯片,可运行包括Qwen3、DeepSeek-V3.2在内的多种前沿模型。

英伟达在CES展会上展示了DGX Spark和DGX Station两款桌面AI超级计算机如何让开发者在本地系统上利用最新的开源和前沿AI模型。DGX Spark可运行千亿参数模型,DGX Station则可运行万亿参数模型。这些系统基于英伟达Grace Blackwell架构,具备大容量统一内存和每秒千万亿次浮点运算的AI性能,为开发者提供了本地开发并轻松扩展至云端的新能力。

通过模型优化的持续进步以及与开源社区的合作,一系列高度优化的开源模型现在可以在DGX Spark和DGX Station的桌面上加速运行,而这些模型以往需要数据中心才能运行。DGX Spark预装了英伟达AI软件和CUDA-X库,为开发者、研究人员和数据科学家提供了强大的即插即用优化功能,用于构建、微调和运行AI。

Spark为所有开发者提供了在桌面上运行最新AI模型的基础;Station则使企业和研究实验室能够运行更先进、大规模的前沿AI模型。这些系统支持直接从桌面运行最新的框架和开源模型,包括最近发布的英伟达Nemotron 3模型系列。

为DGX Spark提供动力的英伟达Blackwell架构包括NVFP4数据格式,该格式可使AI模型压缩高达70%,并在不损失智能的情况下提升性能。英伟达与开源软件生态系统的合作,例如与llama.cpp的合作,进一步推动了性能提升,在DGX Spark上运行最先进的AI模型时平均性能提升35%。Llama.cpp还包括一项提升使用体验的升级,加快了大型语言模型的加载时间。

DGX Station搭载GB300 Grace Blackwell Ultra超级芯片和775GB FP4精度一致性内存,可运行高达1万亿参数的模型,为前沿AI实验室提供了从桌面处理大规模模型的尖端计算能力。这包括多种先进的AI模型,如Kimi-K2 Thinking、DeepSeek-V3.2、Mistral Large 3、Meta Llama 4 Maverick、Qwen3和OpenAI gpt-oss-120b。

vLLM的核心维护者Kaichao You表示,英伟达GB300通常作为机架规模系统部署,这使得像vLLM这样的项目难以直接在强大的GB300超级芯片上进行测试和开发。DGX Station改变了这一动态,通过以紧凑的单系统形态提供GB300,使vLLM能够以显著更低的成本测试和开发GB300特定功能,从而加速开发周期。

SGLang社区贡献者Jerry Zhou表示,DGX Station将数据中心级的GPU能力直接带入房间,其功能强大到足以在本地服务像Qwen3-235B这样的大型模型,测试具有大型模型配置的训练框架,并开发具有极大矩阵大小的CUDA内核,所有这些都无需依赖云机架,这极大地缩短了系统和框架开发的迭代周期。

英伟达将在CES现场展示DGX Station的能力,演示包括以每秒25万个令牌的速度进行LLM预训练,以及使用机器学习技术和算法对类别集群中的数百万数据点进行大型数据可视化。

背景阅读

英伟达DGX系列是专为AI和高性能计算设计的集成系统,旨在简化AI开发和部署。DGX Station作为桌面型AI超级计算机,此前已有多代产品,专注于为研究机构和开发者提供本地化的强大算力。Grace Blackwell架构是英伟达最新的GPU架构,结合了Grace CPU和Blackwell GPU,旨在提升AI工作负载的性能和能效,特别适用于大规模语言模型训练和推理。开源AI模型的快速发展,如Meta的Llama系列、中国的Qwen和DeepSeek等,推动了对本地高性能计算设备的需求,以便于模型测试、微调和部署,减少对云服务的依赖。英伟达通过硬件优化和软件生态合作,如与vLLM、llama.cpp等项目的集成,旨在降低AI开发门槛,加速创新周期。

评论 (0)

登录后参与评论

加载评论中...