Hugging Face 推出高速 Whisper 转录推理端点

5 小时前·来源:Hugging Face Blog
Hugging FaceWhisper语音转录推理优化vLLM

Hugging Face 今天发布了基于 OpenAI Whisper 模型的新推理端点。该端点利用 vLLM 项目优化,在 NVIDIA GPU 上实现高达 8 倍的性能提升。用户可通过一键部署,以经济高效的方式使用专用转录模型。

Hugging Face 今天在推理端点上推出了一个新的高速 OpenAI Whisper 部署选项。与之前版本相比,它提供了高达 8 倍的性能改进,并让每个人都能通过一键部署,以经济高效的方式部署专用、强大的转录模型,利用了 AI 社区完成的出色工作。

新的 Whisper 端点利用了出色的开源社区项目。推理由 vLLM 项目提供支持,该项目提供了在各种硬件系列上运行 AI 模型的高效方式,特别是但不限于 NVIDIA GPU。我们使用 OpenAI Whisper 模型的 vLLM 实现,使我们能够在软件栈中启用进一步的底层优化。

在此初始版本中,我们针对具有计算能力 8.9 或更好的 NVIDIA GPU,如 L4 和 L40s,这解锁了广泛的软件优化:PyTorch 编译、CUDA 图和 float8 KV 缓存。编译以即时方式生成优化内核,可以修改计算图、重新排序操作、调用专门方法等。CUDA 图记录 GPU 上发生的顺序操作或内核流,并尝试将它们分组为更大的工作单元在 GPU 上执行。这种分组操作通过执行单个更大的工作单元,而不是多个较小的单元,减少了数据移动、同步和 GPU 调度开销。最后,我们动态量化激活以减少 KV 缓存带来的内存需求。计算以半精度完成,输出以降低的精度存储,这使我们能够在 KV 缓存中存储更多元素,提高缓存命中率。

Whisper Large V3 在 RTFx 上显示出近 8 倍的改进,实现了更快的推理,而转录质量没有损失。我们评估了多个基于 Whisper 的模型的转录质量和运行时效率,包括 Whisper Large V3、Whisper Large V3-Turbo 和 Distil-Whisper Large V3.5,并将它们与 Transformers 库中的实现进行比较,以评估在相同条件下的准确性和解码速度。我们计算了来自 Open ASR 排行榜的 8 个标准数据集的词错误率,包括 AMI、GigaSpeech、LibriSpeech、SPGISpeech、Tedlium、VoxPopuli 和 Earnings22。这些数据集涵盖不同领域和录音条件,确保了对泛化和真实世界转录质量的稳健评估。

背景阅读

OpenAI Whisper 是一个开源的自动语音识别模型,由 OpenAI 于 2022 年发布,支持多种语言的语音转录和翻译。它基于 Transformer 架构,在大规模多语言音频数据集上训练,具有高准确性和鲁棒性。Hugging Face 是一个领先的 AI 社区平台,提供模型托管、数据集和工具,促进开源 AI 模型的共享和部署。推理端点是 Hugging Face 的一项服务,允许用户轻松部署和管理 AI 模型用于生产环境。vLLM 是一个开源项目,专注于优化大型语言模型的推理性能,通过高效的内存管理和并行处理技术,在 GPU 上实现高速推理。近年来,随着 AI 模型规模的增大,推理优化变得至关重要,特别是在实时应用如语音转录中,需要低延迟和高吞吐量。Hugging Face 的这次更新旨在通过社区合作,推动开源 AI 技术的部署效率,降低使用门槛。

评论 (0)

登录后参与评论

加载评论中...