随着ASR模型数量激增,选择合适的模型变得愈发困难。截至2025年11月21日,Hugging Face Hub上已有150个音频-文本-文本模型和2.7万个ASR模型。大多数基准测试专注于短格式英语转录,忽略了多语言性能和模型吞吐量等关键因素。
过去两年,开放ASR排行榜已成为比较开源和闭源模型准确性与效率的标准。近期,该排行榜新增了多语言和长音频转录赛道。
开放ASR排行榜目前比较了来自18个组织的60多个开源和闭源模型,涵盖11个数据集。一篇新预印本深入探讨了技术设置并突出了现代ASR的关键趋势。
结合Conformer编码器与大型语言模型解码器的模型目前在英语转录准确率上领先。例如,英伟达的Canary-Qwen-2.5B、IBM的Granite-Speech-3.3-8B和微软的Phi-4-Multimodal-Instruct实现了最低的词错误率,表明集成LLM推理能显著提升ASR准确率。英伟达推出了Fast Conformer,这是Conformer的2倍速变体,用于其Canary和Parakeet系列模型。
这些LLM解码器虽然准确率高,但往往比简单方法慢。开放ASR排行榜使用逆实时因子来衡量效率,数值越高越好。对于更快的推理,CTC和TDT解码器提供了速度与准确率之间的权衡。
多语言模型在单一语言性能上通常有所妥协。长音频转录方面,闭源系统目前仍处于领先地位。排行榜还提供了微调指南,包括Parakeet、Voxtral和Whisper,以继续推动性能提升。