NeoBeta - AI 科技资讯

英伟达研究人员发布了PersonaPlex-7B-v1，这是一个全双工语音到语音对话模型，旨在实现自然的语音交互和精确的角色控制。传统语音助手通常采用级联流程，包括自动语音识别、语言模型生成文本答案和文本到语音转换，每个阶段会增加延迟，且无法处理重叠语音、自然打断或密集的反馈信号。PersonaPlex用一个单一的Transformer模型替代了这一流程，该模型在一个网络中执行流式语音理解和语音生成。模型基于连续音频编码，自回归预测文本和音频令牌，支持用户音频的增量编码，同时生成自身语音，从而实现打断、重叠、快速轮换和上下文反馈。PersonaPlex采用双流配置运行，一个流跟踪用户音频，另一个流跟踪代理语音和文本，两个流共享相同的模型状态，使代理能在说话时继续监听，并在用户打断时调整响应。该设计直接受到Kyutai的Moshi全双工框架启发。PersonaPlex使用两个提示来定义对话身份：语音提示是一系列音频令牌，编码声音特征、说话风格和韵律；文本提示描述角色、背景、组织信息和场景上下文。这些提示共同约束代理的语言内容和声学行为。此外，系统提示支持名称、业务名称、代理名称和业务信息等字段，令牌预算最多200个。PersonaPlex模型拥有70亿参数，遵循Moshi网络架构，使用Mimi语音编码器将波形音频转换为离散令牌，时间和深度Transformer处理代表用户音频、代理文本和代理音频的多个通道，Mimi语音解码器生成输出音频令牌，音频输入和输出采用24 kHz采样率。PersonaPlex基于Moshi权重构建，并使用Helium作为底层语言模型骨干，Helium提供语义理解，并能在监督对话场景之外实现泛化。训练分为一个阶段，使用真实和合成对话的混合数据。真实对话来自Fisher英语语料库的7,303个通话，约1,217小时，这些对话使用GPT-OSS-120B进行后注释提示。合成数据涵盖助理和客户服务角色，包括39,322个合成助理对话约410小时，以及105,410个合成客户服务对话约1,840小时，使用Qwen3-32B和GPT-OSS-120B生成转录，Chatterbox TTS转换为语音。

背景阅读

语音助手技术长期以来依赖于级联架构，即自动语音识别将语音转换为文本，大型语言模型生成文本响应，再通过文本到语音转换回音频。这种流程虽然成熟，但存在延迟高、无法处理自然对话中断和重叠语音等局限性。近年来，全双工语音模型成为研究热点，旨在实现更流畅、实时的语音交互。英伟达此次发布的PersonaPlex-7B-v1基于Kyutai的Moshi框架，该框架是开源的实时全双工语音模型，专注于低延迟和自然对话。PersonaPlex采用Helium作为语言模型骨干，Helium是Kyutai开发的高性能模型，支持多模态理解和生成。在训练数据方面，结合真实对话和合成数据是提升模型泛化能力的常见策略，真实数据提供自然语言模式，而合成数据则扩展角色和场景覆盖。这一发布反映了AI领域在语音交互技术上的持续创新，特别是在减少延迟和增强角色控制方面。

英伟达发布PersonaPlex-7B-v1：专为自然全双工对话设计的实时语音模型

背景阅读

相关阅读

NVIDIA 发布 Nemotron 3 Nano 并采用开放评估标准

开放ASR排行榜新增多语言和长音频赛道，揭示模型趋势

谷歌改进Gemini音频模型以增强语音体验

评论 (0)