开放ASR排行榜新增多语言和长音频赛道,揭示模型趋势

2 天前·来源:Hugging Face Blog
ASR语音识别Hugging Face多语言模型长音频转录

Hugging Face开放ASR排行榜新增多语言和长音频转录评估赛道。该排行榜已收录60多个开源和闭源模型,涵盖11个数据集。研究发现,Conformer编码器结合LLM解码器的模型在英语转录准确率上领先。

随着ASR模型数量激增,选择合适的模型变得愈发困难。截至2025年11月21日,Hugging Face Hub上已有150个音频-文本-文本模型和2.7万个ASR模型。大多数基准测试专注于短格式英语转录,忽略了多语言性能和模型吞吐量等关键因素。

过去两年,开放ASR排行榜已成为比较开源和闭源模型准确性与效率的标准。近期,该排行榜新增了多语言和长音频转录赛道。

开放ASR排行榜目前比较了来自18个组织的60多个开源和闭源模型,涵盖11个数据集。一篇新预印本深入探讨了技术设置并突出了现代ASR的关键趋势。

结合Conformer编码器与大型语言模型解码器的模型目前在英语转录准确率上领先。例如,英伟达的Canary-Qwen-2.5B、IBM的Granite-Speech-3.3-8B和微软的Phi-4-Multimodal-Instruct实现了最低的词错误率,表明集成LLM推理能显著提升ASR准确率。英伟达推出了Fast Conformer,这是Conformer的2倍速变体,用于其Canary和Parakeet系列模型。

这些LLM解码器虽然准确率高,但往往比简单方法慢。开放ASR排行榜使用逆实时因子来衡量效率,数值越高越好。对于更快的推理,CTC和TDT解码器提供了速度与准确率之间的权衡。

多语言模型在单一语言性能上通常有所妥协。长音频转录方面,闭源系统目前仍处于领先地位。排行榜还提供了微调指南,包括Parakeet、Voxtral和Whisper,以继续推动性能提升。

背景阅读

自动语音识别技术近年来快速发展,从传统的隐马尔可夫模型和混合高斯模型,发展到基于深度学习的端到端模型。2014年,百度率先将深度学习应用于语音识别,显著提升了准确率。随后,循环神经网络、卷积神经网络和Transformer架构相继被引入ASR领域。 2020年,Conformer模型结合了CNN的局部特征提取能力和Transformer的全局依赖建模,在语音识别任务上表现出色。近年来,随着大型语言模型的兴起,研究者开始探索将LLM作为ASR的解码器,利用其强大的语言理解和生成能力来提升转录准确率。 多语言ASR是另一个重要方向,旨在让单个模型支持多种语言的语音识别,这对全球化应用至关重要。长音频转录则关注会议、播客等场景,需要模型具备处理长时间音频和保持上下文一致性的能力。Hugging Face的开放ASR排行榜为这些技术方向的比较提供了标准化平台。

评论 (0)

登录后参与评论

加载评论中...