Hugging Face TRL 现已正式集成 RapidFire AI,以加速微调和后训练实验。TRL 用户可以安装并运行 RapidFire AI,作为比较多个微调或后训练配置的最快方式,无需大量代码更改或增加 GPU 需求。
在微调或后训练大语言模型时,团队通常没有时间或预算比较多个配置,尽管这能显著提升评估指标。RapidFire AI 允许并发启动多个 TRL 配置,即使在单 GPU 上,并通过新的自适应、基于分块的调度和执行方案进行近实时比较。在 TRL 页面引用的内部基准测试中,这比顺序比较配置的实验吞吐量提高约 16-24 倍,使用户能更快达到更好的指标。
RapidFire AI 在 IDE、指标仪表板和多 GPU 执行后端之间建立实时三方通信。
用户可以使用 RFSFTConfig、RFDPOConfig 和 RFGRPOConfig 作为 TRL 的 SFT、DPO 和 GRPO 配置的近零代码替代品。RapidFire AI 将数据集分片为给定数量的块,并在块边界循环配置,以实现早期公平比较并最大化 GPU 利用率。
从仪表板本身,用户可以停止、恢复、删除和克隆修改任何运行中的实验,可选择热启动,以避免在表现不佳的配置上浪费资源,并专注于表现更好的配置,无需作业重启、管理单独的 GPU 或集群,或资源膨胀。
RapidFire AI 调度器通过高效的共享内存机制,自动在可用 GPU 上放置和编排配置的数据块。用户专注于模型和评估指标,而非底层架构。
基于 MLflow 的仪表板在实验开始时提供实时指标、日志和交互控制操作。对 Trackio、W&B 和 TensorBoard 等更多仪表板的支持即将推出。
RapidFire AI 将数据集随机分成“块”,并在块边界通过 GPU 循环大语言模型配置。用户能更快获得所有配置的评估指标增量信号。通过高效的基于共享内存的适配器或模型溢出或加载机制实现自动检查点,保持训练平稳、稳定和一致。使用交互控制操作在运行中适应,早期停止低性能配置,并克隆有希望的配置并调整参数,可选择从父权重热启动。
安装 RapidFire AI 并在一分钟内开始运行:pip install rapidfireai,使用 huggingface-cli login --token YOUR_TOKEN 进行身份验证,pip uninstall -y hf-xet 作为当前问题的解决方法,rapidfireai init 和 rapidfireai start 初始化并启动。仪表板在 http://localhost:3000 启动,用户可以监控和控制所有实验。
支持的 TRL 训练器包括使用 RFSFTConfig 的 SFT、使用 RFDPOConfig 的 DPO 和使用 RFGRPOConfig 的 GRPO。这些设计为即插即用替代品,使用户能保持 TRL 思维模型。