Hugging Face TRL 集成 RapidFire AI,微调速度提升 20 倍

2 天前·来源:Hugging Face Blog
Hugging FaceTRLRapidFire AI微调大语言模型

Hugging Face TRL 正式集成 RapidFire AI,加速大语言模型微调实验。该工具支持并发运行多个配置,在单 GPU 上实现近实时比较。内部基准显示,实验吞吐量比顺序方法提高约 16-24 倍。

Hugging Face TRL 现已正式集成 RapidFire AI,以加速微调和后训练实验。TRL 用户可以安装并运行 RapidFire AI,作为比较多个微调或后训练配置的最快方式,无需大量代码更改或增加 GPU 需求。

在微调或后训练大语言模型时,团队通常没有时间或预算比较多个配置,尽管这能显著提升评估指标。RapidFire AI 允许并发启动多个 TRL 配置,即使在单 GPU 上,并通过新的自适应、基于分块的调度和执行方案进行近实时比较。在 TRL 页面引用的内部基准测试中,这比顺序比较配置的实验吞吐量提高约 16-24 倍,使用户能更快达到更好的指标。

RapidFire AI 在 IDE、指标仪表板和多 GPU 执行后端之间建立实时三方通信。

用户可以使用 RFSFTConfig、RFDPOConfig 和 RFGRPOConfig 作为 TRL 的 SFT、DPO 和 GRPO 配置的近零代码替代品。RapidFire AI 将数据集分片为给定数量的块,并在块边界循环配置,以实现早期公平比较并最大化 GPU 利用率。

从仪表板本身,用户可以停止、恢复、删除和克隆修改任何运行中的实验,可选择热启动,以避免在表现不佳的配置上浪费资源,并专注于表现更好的配置,无需作业重启、管理单独的 GPU 或集群,或资源膨胀。

RapidFire AI 调度器通过高效的共享内存机制,自动在可用 GPU 上放置和编排配置的数据块。用户专注于模型和评估指标,而非底层架构。

基于 MLflow 的仪表板在实验开始时提供实时指标、日志和交互控制操作。对 Trackio、W&B 和 TensorBoard 等更多仪表板的支持即将推出。

RapidFire AI 将数据集随机分成“块”,并在块边界通过 GPU 循环大语言模型配置。用户能更快获得所有配置的评估指标增量信号。通过高效的基于共享内存的适配器或模型溢出或加载机制实现自动检查点,保持训练平稳、稳定和一致。使用交互控制操作在运行中适应,早期停止低性能配置,并克隆有希望的配置并调整参数,可选择从父权重热启动。

安装 RapidFire AI 并在一分钟内开始运行:pip install rapidfireai,使用 huggingface-cli login --token YOUR_TOKEN 进行身份验证,pip uninstall -y hf-xet 作为当前问题的解决方法,rapidfireai init 和 rapidfireai start 初始化并启动。仪表板在 http://localhost:3000 启动,用户可以监控和控制所有实验。

支持的 TRL 训练器包括使用 RFSFTConfig 的 SFT、使用 RFDPOConfig 的 DPO 和使用 RFGRPOConfig 的 GRPO。这些设计为即插即用替代品,使用户能保持 TRL 思维模型。

背景阅读

Hugging Face 是一个领先的开源机器学习平台,提供 Transformers 库和 TRL(Transformer Reinforcement Learning)等工具,用于大语言模型的微调和训练。TRL 支持监督微调(SFT)、直接偏好优化(DPO)和广义强化学习优化(GRPO)等方法,帮助开发者定制模型以适应特定任务。然而,传统微调过程通常需要顺序测试多个超参数配置,耗时且资源密集,尤其是在 GPU 有限的情况下。RapidFire AI 的集成旨在解决这一问题,通过并发执行和自适应调度,提高实验效率。这一进展反映了 AI 工具生态系统中对优化开发流程的持续关注,特别是在大语言模型快速迭代的背景下,加速实验周期对于研究和应用部署至关重要。

评论 (0)

登录后参与评论

加载评论中...