NeoBeta - AI 科技资讯

Hugging Face 在博客文章中提出了“语音同意门”概念，以支持基于同意的语音克隆。该公司提供了一个示例空间和配套代码来启动这一想法。

过去几年，逼真的语音生成技术取得了显著进展。在某些情况下，可以生成听起来几乎与真人声音完全一样的合成语音。如今，语音克隆技术已成为现实，只需几秒钟的录音，就能让任何人的声音说出几乎任何内容。

语音生成，特别是语音克隆子任务，具有显著的风险和益处。深度伪造的风险可能误导人们认为某人说了他们实际上没有说过的话。另一方面，语音克隆可以成为强大的有益工具，帮助失去说话能力的人用自己的声音重新交流，或协助人们学习新的语言和方言。

Hugging Face 正在探索一个可能的答案：语音同意门。这是一个系统，只有当说话者明确表示同意时，才能克隆其声音。换句话说，除非你同意，否则模型不会用你的声音说话。

语音同意门是该公司正在探索的基础设施，它提供了将同意等伦理原则直接嵌入 AI 系统工作流程的方法。在演示中，这意味着只有在说话者的同意短语被说出并识别后，模型才会启动，从而有效地使同意成为行动的先决条件。

要创建带有语音同意门的基本语音克隆系统，需要三个部分：一种为将被克隆声音的说话者生成新颖同意句子的方法，一个识别传达同意句子的自动语音识别系统，以及一个将文本和说话者的语音片段作为输入来生成语音的语音克隆文本转语音系统。

Hugging Face 观察到，由于一些语音克隆系统现在只需一个句子就能生成与说话者声音相似的语音，因此用于同意的句子也可用于语音克隆。

在英语语音克隆系统中创建语音同意门时，需要生成一个简短、自然的英语话语供人朗读，明确表达他们在当前情境下的知情同意。建议明确包含同意短语和模型名称。

背景阅读

语音克隆是人工智能语音合成技术的一个重要分支，它允许通过少量语音样本复制特定人的声音特征。近年来，随着深度学习技术的发展，语音克隆的逼真度显著提高，使得合成语音与原始说话者的声音难以区分。这项技术具有广泛的应用前景，例如为失语症患者恢复个性化语音、创建个性化的虚拟助手、以及用于娱乐和教育领域。然而，语音克隆技术也带来了严重的伦理和安全挑战，特别是深度伪造语音可能被用于欺诈、虚假信息传播和身份盗用。例如，2024年曾发生使用AI克隆美国总统拜登声音进行自动电话呼叫的事件，引发了公众对语音克隆滥用的担忧。为了应对这些挑战，行业和研究机构正在探索技术解决方案和伦理框架，如基于同意的访问控制、水印技术和监管政策。Hugging Face 作为开源AI社区的重要平台，此次提出的“语音同意门”概念是将伦理原则（如知情同意）直接集成到AI系统工作流程中的一次尝试，旨在通过技术设计来促进负责任的人工智能应用。

Hugging Face 提出“语音同意门”概念支持基于同意的语音克隆

背景阅读

相关阅读

Hugging Face与谷歌云深化合作，推动开放AI模型构建

开放ASR排行榜新增多语言和长音频赛道，揭示模型趋势

Hugging Face TRL 集成 RapidFire AI，微调速度提升 20 倍

评论 (0)