Hugging Face 今天在推理端点上推出了一个新的高速 OpenAI Whisper 部署选项。与之前版本相比,它提供了高达 8 倍的性能改进,并让每个人都能通过一键部署,以经济高效的方式部署专用、强大的转录模型,利用了 AI 社区完成的出色工作。
新的 Whisper 端点利用了出色的开源社区项目。推理由 vLLM 项目提供支持,该项目提供了在各种硬件系列上运行 AI 模型的高效方式,特别是但不限于 NVIDIA GPU。我们使用 OpenAI Whisper 模型的 vLLM 实现,使我们能够在软件栈中启用进一步的底层优化。
在此初始版本中,我们针对具有计算能力 8.9 或更好的 NVIDIA GPU,如 L4 和 L40s,这解锁了广泛的软件优化:PyTorch 编译、CUDA 图和 float8 KV 缓存。编译以即时方式生成优化内核,可以修改计算图、重新排序操作、调用专门方法等。CUDA 图记录 GPU 上发生的顺序操作或内核流,并尝试将它们分组为更大的工作单元在 GPU 上执行。这种分组操作通过执行单个更大的工作单元,而不是多个较小的单元,减少了数据移动、同步和 GPU 调度开销。最后,我们动态量化激活以减少 KV 缓存带来的内存需求。计算以半精度完成,输出以降低的精度存储,这使我们能够在 KV 缓存中存储更多元素,提高缓存命中率。
Whisper Large V3 在 RTFx 上显示出近 8 倍的改进,实现了更快的推理,而转录质量没有损失。我们评估了多个基于 Whisper 的模型的转录质量和运行时效率,包括 Whisper Large V3、Whisper Large V3-Turbo 和 Distil-Whisper Large V3.5,并将它们与 Transformers 库中的实现进行比较,以评估在相同条件下的准确性和解码速度。我们计算了来自 Open ASR 排行榜的 8 个标准数据集的词错误率,包括 AMI、GigaSpeech、LibriSpeech、SPGISpeech、Tedlium、VoxPopuli 和 Earnings22。这些数据集涵盖不同领域和录音条件,确保了对泛化和真实世界转录质量的稳健评估。