Hugging Face 与 NVIDIA 在 GTC Paris 上宣布推出训练集群即服务,旨在让全球研究机构更容易访问大型 GPU 集群,以便在各个领域训练未来的基础模型。该服务通过整合 NVIDIA 和 Hugging Face 的关键组件,提供 GPU 集群的可访问性,用户可以根据需要请求 GPU 集群大小,并仅支付训练运行期间的费用。
训练集群即服务的工作原理是,用户代表其组织在 hf.co/training-cluster 上请求 GPU 集群。该服务集成了 NVIDIA 云合作伙伴提供的 NVIDIA Hopper 和 NVIDIA GB200 等最新加速计算能力,以及 NVIDIA DGX Cloud Lepton 的基础设施访问、训练运行调度和监控功能。Hugging Face 的开发者资源和开源库则简化了训练启动过程。一旦 GPU 集群请求被接受,Hugging Face 和 NVIDIA 将根据用户的大小、区域和时长要求合作采购、定价、配置和设置 GPU 集群。
该服务已应用于实际案例。Telethon 基因组学和医学研究所利用训练集群即服务轻松获取所需 GPU 容量,用于训练新 AI 模型以预测致病变异效应和药物重新定位。非营利组织 Numina 也使用该服务构建开源 AI 模型,用于数学推理,并赢得了 2024 年 AIMO 进步奖。