英伟达发布PersonaPlex-7B-v1:专为自然全双工对话设计的实时语音模型

2 天前·来源:MarkTechPost
英伟达语音模型全双工对话AI交互Transformer

英伟达研究人员发布了PersonaPlex-7B-v1,这是一个全双工语音对话模型,旨在实现自然的语音交互和精确的角色控制。该模型采用单一Transformer架构,替代了传统的ASR-LLM-TTS级联流程,支持流式语音理解和生成,能够处理重叠语音和自然打断。PersonaPlex基于Moshi架构和Helium语言模型构建,使用真实和合成对话数据进行训练,以提升交互的自然性和适应性。

英伟达研究人员发布了PersonaPlex-7B-v1,这是一个全双工语音到语音对话模型,旨在实现自然的语音交互和精确的角色控制。传统语音助手通常采用级联流程,包括自动语音识别、语言模型生成文本答案和文本到语音转换,每个阶段会增加延迟,且无法处理重叠语音、自然打断或密集的反馈信号。PersonaPlex用一个单一的Transformer模型替代了这一流程,该模型在一个网络中执行流式语音理解和语音生成。模型基于连续音频编码,自回归预测文本和音频令牌,支持用户音频的增量编码,同时生成自身语音,从而实现打断、重叠、快速轮换和上下文反馈。PersonaPlex采用双流配置运行,一个流跟踪用户音频,另一个流跟踪代理语音和文本,两个流共享相同的模型状态,使代理能在说话时继续监听,并在用户打断时调整响应。该设计直接受到Kyutai的Moshi全双工框架启发。PersonaPlex使用两个提示来定义对话身份:语音提示是一系列音频令牌,编码声音特征、说话风格和韵律;文本提示描述角色、背景、组织信息和场景上下文。这些提示共同约束代理的语言内容和声学行为。此外,系统提示支持名称、业务名称、代理名称和业务信息等字段,令牌预算最多200个。PersonaPlex模型拥有70亿参数,遵循Moshi网络架构,使用Mimi语音编码器将波形音频转换为离散令牌,时间和深度Transformer处理代表用户音频、代理文本和代理音频的多个通道,Mimi语音解码器生成输出音频令牌,音频输入和输出采用24 kHz采样率。PersonaPlex基于Moshi权重构建,并使用Helium作为底层语言模型骨干,Helium提供语义理解,并能在监督对话场景之外实现泛化。训练分为一个阶段,使用真实和合成对话的混合数据。真实对话来自Fisher英语语料库的7,303个通话,约1,217小时,这些对话使用GPT-OSS-120B进行后注释提示。合成数据涵盖助理和客户服务角色,包括39,322个合成助理对话约410小时,以及105,410个合成客户服务对话约1,840小时,使用Qwen3-32B和GPT-OSS-120B生成转录,Chatterbox TTS转换为语音。

背景阅读

语音助手技术长期以来依赖于级联架构,即自动语音识别将语音转换为文本,大型语言模型生成文本响应,再通过文本到语音转换回音频。这种流程虽然成熟,但存在延迟高、无法处理自然对话中断和重叠语音等局限性。近年来,全双工语音模型成为研究热点,旨在实现更流畅、实时的语音交互。英伟达此次发布的PersonaPlex-7B-v1基于Kyutai的Moshi框架,该框架是开源的实时全双工语音模型,专注于低延迟和自然对话。PersonaPlex采用Helium作为语言模型骨干,Helium是Kyutai开发的高性能模型,支持多模态理解和生成。在训练数据方面,结合真实对话和合成数据是提升模型泛化能力的常见策略,真实数据提供自然语言模式,而合成数据则扩展角色和场景覆盖。这一发布反映了AI领域在语音交互技术上的持续创新,特别是在减少延迟和增强角色控制方面。

评论 (0)

登录后参与评论

加载评论中...