TRL 集成 vLLM 实现 GPU 共享,提升大模型训练效率

1 天前·来源:Hugging Face Blog
TRLvLLMGPU优化大模型训练在线学习

TRL 库在 v0.18.0 版本中集成了 vLLM,支持训练和推理在同一 GPU 上协同运行。这一改进消除了 GPU 闲置时间,减少了额外硬件需求。该功能适用于 GRPO 等在线学习方法,提升了大规模模型训练的吞吐量。

TRL 库支持使用 GRPO 算法训练大语言模型,该算法需要模型在训练过程中生成响应并接收反馈。生成步骤成为训练循环的关键瓶颈。在 TRL v0.18.0 之前,vLLM 仅支持服务器模式,运行在与训练作业不同的 GPU 上,通过 HTTP 通信,导致 GPU 效率低下。训练和生成之间的切换造成 GPU 闲置时间浪费,增加了额外 GPU 需求,降低了整体吞吐量。TRL v0.18.0 通过 PR #3394 引入了 vLLM 的协同定位支持,允许训练和推理在同一 GPU 上共享资源。vLLM 嵌入到相同的进程组中,与训练代码并行运行,避免了 HTTP 通信开销。这一改进支持 Tensor Parallelism 和 Data Parallelism,适用于分布式多 GPU 和多节点设置。用户不再需要维护单独的服务器脚本,vLLM 直接在训练作业中启动和控制。通过消除 GPU 闲置,该功能提升了训练效率,特别适用于 GRPO 等需要频繁生成的在线学习方法。

背景阅读

TRL(Transformer Reinforcement Learning)是 Hugging Face 开发的一个库,专注于使用强化学习技术训练和微调大语言模型。它支持多种训练方法,包括最近引入的 GRPO(Group Relative Policy Optimization)算法,该算法在 DeepSeekMath 论文中提出,是一种在线学习算法,模型通过自身生成和反馈进行迭代优化。vLLM 是一个高性能的大语言模型推理和服务引擎,以其高效的注意力机制和 PagedAttention 技术著称,能够显著提升生成速度。在传统的大模型训练中,训练和推理通常分离运行,导致 GPU 资源利用率不足,尤其是在需要频繁交互的在线学习场景中。协同定位技术通过将训练和推理任务整合到同一硬件资源上,实现更高效的资源调度,这是分布式计算和 AI 训练优化的重要方向。此次 TRL 与 vLLM 的深度集成,反映了开源社区在提升 AI 训练效率方面的持续创新。

评论 (0)

登录后参与评论

加载评论中...