Hugging Face 宣布对其数据集库的流式加载功能进行了重大优化,使 streaming=True 参数下的数据集加载效率大幅提升。用户现在可以通过一行代码直接流式加载数据集,无需下载,从而立即开始训练多TB规模的数据集,避免了复杂的设置、磁盘空间不足或请求限制错误。在测试中,使用64个H100 GPU和256个工作进程时,流式加载速度超过了本地SSD,启动请求减少了100倍,数据解析速度提升了10倍,样本处理速度翻倍,且在256个并发工作进程下无崩溃。这些改进基于对后端系统的数月优化,包括引入持久数据文件缓存和优化解析逻辑,以减少冗余API调用并提升吞吐量。