Hugging Face 与 NVIDIA 合作推出训练集群即服务

1 天前·来源:Hugging Face Blog
Hugging FaceNVIDIAAI训练GPU集群云服务

Hugging Face 与 NVIDIA 在 GTC Paris 上宣布推出训练集群即服务。该服务旨在让全球研究机构更容易访问大型 GPU 集群。用户可按需请求 GPU 集群,仅支付训练期间的费用。

Hugging Face 与 NVIDIA 在 GTC Paris 上宣布推出训练集群即服务,旨在让全球研究机构更容易访问大型 GPU 集群,以便在各个领域训练未来的基础模型。该服务通过整合 NVIDIA 和 Hugging Face 的关键组件,提供 GPU 集群的可访问性,用户可以根据需要请求 GPU 集群大小,并仅支付训练运行期间的费用。

训练集群即服务的工作原理是,用户代表其组织在 hf.co/training-cluster 上请求 GPU 集群。该服务集成了 NVIDIA 云合作伙伴提供的 NVIDIA Hopper 和 NVIDIA GB200 等最新加速计算能力,以及 NVIDIA DGX Cloud Lepton 的基础设施访问、训练运行调度和监控功能。Hugging Face 的开发者资源和开源库则简化了训练启动过程。一旦 GPU 集群请求被接受,Hugging Face 和 NVIDIA 将根据用户的大小、区域和时长要求合作采购、定价、配置和设置 GPU 集群。

该服务已应用于实际案例。Telethon 基因组学和医学研究所利用训练集群即服务轻松获取所需 GPU 容量,用于训练新 AI 模型以预测致病变异效应和药物重新定位。非营利组织 Numina 也使用该服务构建开源 AI 模型,用于数学推理,并赢得了 2024 年 AIMO 进步奖。

背景阅读

随着 AI 模型的快速发展,训练大型基础模型需要大量计算资源,特别是 GPU 集群。许多研究机构面临计算资源不足的挑战,导致“GPU 贫富差距”扩大。NVIDIA 作为领先的 GPU 制造商,通过其 DGX Cloud 等产品提供高性能计算基础设施。Hugging Face 是一个流行的 AI 社区和平台,提供开源模型、数据集和工具,支持 AI 研究和开发。近年来,云服务和即服务模式在 AI 领域日益普及,旨在降低资源获取门槛,促进创新。训练集群即服务结合了 NVIDIA 的硬件优势和 Hugging Face 的软件生态系统,为全球研究机构提供灵活、可扩展的计算解决方案,以加速 AI 模型训练和应用。

评论 (0)

登录后参与评论

加载评论中...