英伟达研究人员发布了PersonaPlex-7B-v1,这是一个全双工语音到语音对话模型,旨在实现自然的语音交互和精确的角色控制。传统语音助手通常采用级联流程,包括自动语音识别、语言模型生成文本答案和文本到语音转换,每个阶段会增加延迟,且无法处理重叠语音、自然打断或密集的反馈信号。PersonaPlex用一个单一的Transformer模型替代了这一流程,该模型在一个网络中执行流式语音理解和语音生成。模型基于连续音频编码,自回归预测文本和音频令牌,支持用户音频的增量编码,同时生成自身语音,从而实现打断、重叠、快速轮换和上下文反馈。PersonaPlex采用双流配置运行,一个流跟踪用户音频,另一个流跟踪代理语音和文本,两个流共享相同的模型状态,使代理能在说话时继续监听,并在用户打断时调整响应。该设计直接受到Kyutai的Moshi全双工框架启发。PersonaPlex使用两个提示来定义对话身份:语音提示是一系列音频令牌,编码声音特征、说话风格和韵律;文本提示描述角色、背景、组织信息和场景上下文。这些提示共同约束代理的语言内容和声学行为。此外,系统提示支持名称、业务名称、代理名称和业务信息等字段,令牌预算最多200个。PersonaPlex模型拥有70亿参数,遵循Moshi网络架构,使用Mimi语音编码器将波形音频转换为离散令牌,时间和深度Transformer处理代表用户音频、代理文本和代理音频的多个通道,Mimi语音解码器生成输出音频令牌,音频输入和输出采用24 kHz采样率。PersonaPlex基于Moshi权重构建,并使用Helium作为底层语言模型骨干,Helium提供语义理解,并能在监督对话场景之外实现泛化。训练分为一个阶段,使用真实和合成对话的混合数据。真实对话来自Fisher英语语料库的7,303个通话,约1,217小时,这些对话使用GPT-OSS-120B进行后注释提示。合成数据涵盖助理和客户服务角色,包括39,322个合成助理对话约410小时,以及105,410个合成客户服务对话约1,840小时,使用Qwen3-32B和GPT-OSS-120B生成转录,Chatterbox TTS转换为语音。