Hugging Face 推出高效流式数据集,性能提升100倍

2 天前·来源:Hugging Face Blog
Hugging Face数据集AI训练流式加载机器学习

Hugging Face 优化了数据集库的流式加载功能,无需下载即可直接训练。改进后,启动请求减少100倍,数据解析速度提升10倍。这解决了大规模AI训练中的数据加载瓶颈问题。

Hugging Face 宣布对其数据集库的流式加载功能进行了重大优化,使 streaming=True 参数下的数据集加载效率大幅提升。用户现在可以通过一行代码直接流式加载数据集,无需下载,从而立即开始训练多TB规模的数据集,避免了复杂的设置、磁盘空间不足或请求限制错误。在测试中,使用64个H100 GPU和256个工作进程时,流式加载速度超过了本地SSD,启动请求减少了100倍,数据解析速度提升了10倍,样本处理速度翻倍,且在256个并发工作进程下无崩溃。这些改进基于对后端系统的数月优化,包括引入持久数据文件缓存和优化解析逻辑,以减少冗余API调用并提升吞吐量。

背景阅读

Hugging Face 是一个领先的AI社区和平台,提供开源模型、数据集和工具,广泛应用于自然语言处理和机器学习领域。其数据集库是AI开发者常用的工具,支持从Hub加载和预处理数据。传统上,处理大规模数据集(如TB级别)时,用户需要先下载数据到本地或云存储,这可能导致长时间等待、磁盘空间问题和网络请求限制。流式加载功能允许直接在线访问数据,但之前在大规模训练中面临性能瓶颈,如请求风暴和低效率。此次优化旨在解决这些问题,提升AI模型训练的效率,特别是在处理如SmolLM3等大型模型时。流式加载技术的改进是AI基础设施发展的重要部分,有助于加速模型迭代和降低计算成本。

评论 (0)

登录后参与评论

加载评论中...