英伟达发布Nemotron Speech ASR:专为低延迟语音代理设计的开源转录模型

4 天前·来源:MarkTechPost
英伟达语音识别开源模型低延迟ASR

英伟达发布了专为低延迟语音代理和实时字幕设计的流式英语转录模型Nemotron Speech ASR。该模型采用缓存感知的FastConformer编码器和RNNT解码器,支持可配置的上下文大小以控制延迟。在Hugging Face OpenASR基准测试中,模型在0.16秒块大小下词错误率约为7.84%。

英伟达发布了专为低延迟语音代理和实时字幕设计的流式英语转录模型Nemotron Speech ASR。该模型在Hugging Face上提供检查点nvidia/nemotron-speech-streaming-en-0.6b,结合了缓存感知的FastConformer编码器和RNNT解码器,并针对现代英伟达GPU上的流式和批量工作负载进行了优化。

Nemotron Speech ASR是一个6亿参数的模型,基于具有24层的缓存感知FastConformer编码器和RNNT解码器。编码器使用激进的8倍卷积下采样来减少时间步数,直接降低了流式工作负载的计算和内存成本。模型处理16 kHz单声道音频,每个块至少需要80毫秒的输入音频。

运行时延迟通过可配置的上下文大小控制。模型提供4种标准块配置,对应约80毫秒、160毫秒、560毫秒和1.12秒的音频。这些模式由att_context_size参数驱动,该参数以80毫秒帧的倍数设置左右注意力上下文,可以在推理时更改而无需重新训练。

传统的“流式ASR”通常使用重叠窗口,每个传入窗口重新处理部分先前音频以保持上下文,这会浪费计算并导致延迟随并发增加而上升。Nemotron Speech ASR改为为所有自注意力和卷积层维护编码器状态缓存。每个新块只处理一次,模型重用缓存的激活而不是重新计算重叠上下文。这实现了非重叠帧处理,使工作量随音频长度线性扩展;可预测的内存增长,因为缓存大小随序列长度增长而非并发相关重复;负载下的稳定延迟,这对语音代理中的轮流发言和中断至关重要。

Nemotron Speech ASR在Hugging Face OpenASR排行榜数据集(包括AMI、Earnings22、Gigaspeech和LibriSpeech)上评估。准确性以不同块大小的词错误率报告。在这些基准测试的平均值中,模型在0.16秒块大小下实现约7.84%的词错误率,在0.56秒块大小下约7.22%,在1.12秒块大小下约7.16%。这说明了延迟与准确性的权衡。较大的块提供更多语音上下文和略低的词错误率,但即使是0.16秒模式也能将词错误率保持在8%以下,同时适用于实时代理。开发者可以根据应用需求在推理时选择操作点,例如160毫秒用于积极的语音代理,或560毫秒用于以转录为中心的工作流。

缓存感知设计对并发性有显著影响。在英伟达H100 GPU上,Nemotron Speech ASR在320毫秒块大小下支持约560个并发流,大约是相同延迟目标下基线流式系统并发性的3倍。RTX A5000和DGX B200基准测试显示类似的吞吐量增益,在A5000上并发性超过5倍,在B200上在典型延迟设置下高达2倍。同样重要的是,延迟随并发增加保持稳定。在Modal使用127个并发WebSocket客户端在560毫秒模式下的测试中,系统保持中位数端到端延迟约182毫秒而无漂移,这对于必须在多分钟会话中与实时语音保持同步的代理至关重要。

Nemotron Speech ASR主要在英伟达Granary数据集的英语部分以及大量公共语音语料库混合上训练,总计约285,000小时音频。数据集包括YouTube Commons、YODAS2、Mos。

背景阅读

自动语音识别(ASR)技术是人工智能领域的关键应用之一,旨在将语音转换为文本。随着语音助手、实时字幕和语音代理等应用的普及,低延迟和高准确性的ASR模型需求日益增长。传统ASR模型在处理流式音频时面临延迟和计算效率的挑战,通常采用重叠窗口方法,导致资源浪费和延迟不稳定。近年来,基于Transformer的模型如Conformer在ASR任务中表现出色,但针对流式场景的优化仍是一个活跃的研究方向。英伟达作为AI硬件和软件领域的领导者,此前已推出多款AI模型和工具,如Megatron-LM和NeMo框架,专注于大规模语言和语音处理。Nemotron Speech ASR的发布是英伟达在语音AI领域的最新进展,旨在通过缓存感知架构解决流式ASR的延迟和并发性问题,为开发者提供开源解决方案,推动语音交互技术的发展。

评论 (0)

登录后参与评论

加载评论中...