NeoBeta - AI 科技资讯

随着ASR模型数量激增，选择合适的模型变得愈发困难。截至2025年11月21日，Hugging Face Hub上已有150个音频-文本-文本模型和2.7万个ASR模型。大多数基准测试专注于短格式英语转录，忽略了多语言性能和模型吞吐量等关键因素。

过去两年，开放ASR排行榜已成为比较开源和闭源模型准确性与效率的标准。近期，该排行榜新增了多语言和长音频转录赛道。

开放ASR排行榜目前比较了来自18个组织的60多个开源和闭源模型，涵盖11个数据集。一篇新预印本深入探讨了技术设置并突出了现代ASR的关键趋势。

结合Conformer编码器与大型语言模型解码器的模型目前在英语转录准确率上领先。例如，英伟达的Canary-Qwen-2.5B、IBM的Granite-Speech-3.3-8B和微软的Phi-4-Multimodal-Instruct实现了最低的词错误率，表明集成LLM推理能显著提升ASR准确率。英伟达推出了Fast Conformer，这是Conformer的2倍速变体，用于其Canary和Parakeet系列模型。

这些LLM解码器虽然准确率高，但往往比简单方法慢。开放ASR排行榜使用逆实时因子来衡量效率，数值越高越好。对于更快的推理，CTC和TDT解码器提供了速度与准确率之间的权衡。

多语言模型在单一语言性能上通常有所妥协。长音频转录方面，闭源系统目前仍处于领先地位。排行榜还提供了微调指南，包括Parakeet、Voxtral和Whisper，以继续推动性能提升。

背景阅读

自动语音识别技术近年来快速发展，从传统的隐马尔可夫模型和混合高斯模型，发展到基于深度学习的端到端模型。2014年，百度率先将深度学习应用于语音识别，显著提升了准确率。随后，循环神经网络、卷积神经网络和Transformer架构相继被引入ASR领域。 2020年，Conformer模型结合了CNN的局部特征提取能力和Transformer的全局依赖建模，在语音识别任务上表现出色。近年来，随着大型语言模型的兴起，研究者开始探索将LLM作为ASR的解码器，利用其强大的语言理解和生成能力来提升转录准确率。多语言ASR是另一个重要方向，旨在让单个模型支持多种语言的语音识别，这对全球化应用至关重要。长音频转录则关注会议、播客等场景，需要模型具备处理长时间音频和保持上下文一致性的能力。Hugging Face的开放ASR排行榜为这些技术方向的比较提供了标准化平台。

开放ASR排行榜新增多语言和长音频赛道，揭示模型趋势

背景阅读

相关阅读

Transformers v5 发布：简化模型定义，支撑 AI 生态系统

OVHcloud成为Hugging Face推理服务提供商

谷歌改进Gemini音频模型以增强语音体验

评论 (0)