TRL 库支持使用 GRPO 算法训练大语言模型,该算法需要模型在训练过程中生成响应并接收反馈。生成步骤成为训练循环的关键瓶颈。在 TRL v0.18.0 之前,vLLM 仅支持服务器模式,运行在与训练作业不同的 GPU 上,通过 HTTP 通信,导致 GPU 效率低下。训练和生成之间的切换造成 GPU 闲置时间浪费,增加了额外 GPU 需求,降低了整体吞吐量。TRL v0.18.0 通过 PR #3394 引入了 vLLM 的协同定位支持,允许训练和推理在同一 GPU 上共享资源。vLLM 嵌入到相同的进程组中,与训练代码并行运行,避免了 HTTP 通信开销。这一改进支持 Tensor Parallelism 和 Data Parallelism,适用于分布式多 GPU 和多节点设置。用户不再需要维护单独的服务器脚本,vLLM 直接在训练作业中启动和控制。通过消除 GPU 闲置,该功能提升了训练效率,特别适用于 GRPO 等需要频繁生成的在线学习方法。