NeoBeta - AI 科技资讯

英伟达发布了专为低延迟语音代理和实时字幕设计的流式英语转录模型Nemotron Speech ASR。该模型在Hugging Face上提供检查点nvidia/nemotron-speech-streaming-en-0.6b，结合了缓存感知的FastConformer编码器和RNNT解码器，并针对现代英伟达GPU上的流式和批量工作负载进行了优化。

Nemotron Speech ASR是一个6亿参数的模型，基于具有24层的缓存感知FastConformer编码器和RNNT解码器。编码器使用激进的8倍卷积下采样来减少时间步数，直接降低了流式工作负载的计算和内存成本。模型处理16 kHz单声道音频，每个块至少需要80毫秒的输入音频。

运行时延迟通过可配置的上下文大小控制。模型提供4种标准块配置，对应约80毫秒、160毫秒、560毫秒和1.12秒的音频。这些模式由att_context_size参数驱动，该参数以80毫秒帧的倍数设置左右注意力上下文，可以在推理时更改而无需重新训练。

传统的“流式ASR”通常使用重叠窗口，每个传入窗口重新处理部分先前音频以保持上下文，这会浪费计算并导致延迟随并发增加而上升。Nemotron Speech ASR改为为所有自注意力和卷积层维护编码器状态缓存。每个新块只处理一次，模型重用缓存的激活而不是重新计算重叠上下文。这实现了非重叠帧处理，使工作量随音频长度线性扩展；可预测的内存增长，因为缓存大小随序列长度增长而非并发相关重复；负载下的稳定延迟，这对语音代理中的轮流发言和中断至关重要。

Nemotron Speech ASR在Hugging Face OpenASR排行榜数据集（包括AMI、Earnings22、Gigaspeech和LibriSpeech）上评估。准确性以不同块大小的词错误率报告。在这些基准测试的平均值中，模型在0.16秒块大小下实现约7.84%的词错误率，在0.56秒块大小下约7.22%，在1.12秒块大小下约7.16%。这说明了延迟与准确性的权衡。较大的块提供更多语音上下文和略低的词错误率，但即使是0.16秒模式也能将词错误率保持在8%以下，同时适用于实时代理。开发者可以根据应用需求在推理时选择操作点，例如160毫秒用于积极的语音代理，或560毫秒用于以转录为中心的工作流。

缓存感知设计对并发性有显著影响。在英伟达H100 GPU上，Nemotron Speech ASR在320毫秒块大小下支持约560个并发流，大约是相同延迟目标下基线流式系统并发性的3倍。RTX A5000和DGX B200基准测试显示类似的吞吐量增益，在A5000上并发性超过5倍，在B200上在典型延迟设置下高达2倍。同样重要的是，延迟随并发增加保持稳定。在Modal使用127个并发WebSocket客户端在560毫秒模式下的测试中，系统保持中位数端到端延迟约182毫秒而无漂移，这对于必须在多分钟会话中与实时语音保持同步的代理至关重要。

Nemotron Speech ASR主要在英伟达Granary数据集的英语部分以及大量公共语音语料库混合上训练，总计约285,000小时音频。数据集包括YouTube Commons、YODAS2、Mos。

英伟达发布Nemotron Speech ASR：专为低延迟语音代理设计的开源转录模型

背景阅读

相关阅读

WEKA提出令牌仓储方案突破AI内存墙

英伟达开源KVzap：一种近乎无损的KV缓存剪枝方法

Anthropic 发布 Claude Cowork AI 代理，实现文件管理与任务自动化

评论 (0)