NeoBeta - AI 科技资讯

Hugging Face 今天在推理端点上推出了一个新的高速 OpenAI Whisper 部署选项。与之前版本相比，它提供了高达 8 倍的性能改进，并让每个人都能通过一键部署，以经济高效的方式部署专用、强大的转录模型，利用了 AI 社区完成的出色工作。

新的 Whisper 端点利用了出色的开源社区项目。推理由 vLLM 项目提供支持，该项目提供了在各种硬件系列上运行 AI 模型的高效方式，特别是但不限于 NVIDIA GPU。我们使用 OpenAI Whisper 模型的 vLLM 实现，使我们能够在软件栈中启用进一步的底层优化。

在此初始版本中，我们针对具有计算能力 8.9 或更好的 NVIDIA GPU，如 L4 和 L40s，这解锁了广泛的软件优化：PyTorch 编译、CUDA 图和 float8 KV 缓存。编译以即时方式生成优化内核，可以修改计算图、重新排序操作、调用专门方法等。CUDA 图记录 GPU 上发生的顺序操作或内核流，并尝试将它们分组为更大的工作单元在 GPU 上执行。这种分组操作通过执行单个更大的工作单元，而不是多个较小的单元，减少了数据移动、同步和 GPU 调度开销。最后，我们动态量化激活以减少 KV 缓存带来的内存需求。计算以半精度完成，输出以降低的精度存储，这使我们能够在 KV 缓存中存储更多元素，提高缓存命中率。

Whisper Large V3 在 RTFx 上显示出近 8 倍的改进，实现了更快的推理，而转录质量没有损失。我们评估了多个基于 Whisper 的模型的转录质量和运行时效率，包括 Whisper Large V3、Whisper Large V3-Turbo 和 Distil-Whisper Large V3.5，并将它们与 Transformers 库中的实现进行比较，以评估在相同条件下的准确性和解码速度。我们计算了来自 Open ASR 排行榜的 8 个标准数据集的词错误率，包括 AMI、GigaSpeech、LibriSpeech、SPGISpeech、Tedlium、VoxPopuli 和 Earnings22。这些数据集涵盖不同领域和录音条件，确保了对泛化和真实世界转录质量的稳健评估。

背景阅读

OpenAI Whisper 是一个开源的自动语音识别模型，由 OpenAI 于 2022 年发布，支持多种语言的语音转录和翻译。它基于 Transformer 架构，在大规模多语言音频数据集上训练，具有高准确性和鲁棒性。Hugging Face 是一个领先的 AI 社区平台，提供模型托管、数据集和工具，促进开源 AI 模型的共享和部署。推理端点是 Hugging Face 的一项服务，允许用户轻松部署和管理 AI 模型用于生产环境。vLLM 是一个开源项目，专注于优化大型语言模型的推理性能，通过高效的内存管理和并行处理技术，在 GPU 上实现高速推理。近年来，随着 AI 模型规模的增大，推理优化变得至关重要，特别是在实时应用如语音转录中，需要低延迟和高吞吐量。Hugging Face 的这次更新旨在通过社区合作，推动开源 AI 技术的部署效率，降低使用门槛。

Hugging Face 推出高速 Whisper 转录推理端点

背景阅读

相关阅读

复旦与创智孵化团队模思智能发布新语音模型

Kaggle与Hugging Face加强集成，提升模型访问体验

微软与Hugging Face深化合作，在Azure上简化开源模型部署

评论 (0)