Hugging Face 在博客文章中提出了“语音同意门”概念,以支持基于同意的语音克隆。该公司提供了一个示例空间和配套代码来启动这一想法。
过去几年,逼真的语音生成技术取得了显著进展。在某些情况下,可以生成听起来几乎与真人声音完全一样的合成语音。如今,语音克隆技术已成为现实,只需几秒钟的录音,就能让任何人的声音说出几乎任何内容。
语音生成,特别是语音克隆子任务,具有显著的风险和益处。深度伪造的风险可能误导人们认为某人说了他们实际上没有说过的话。另一方面,语音克隆可以成为强大的有益工具,帮助失去说话能力的人用自己的声音重新交流,或协助人们学习新的语言和方言。
Hugging Face 正在探索一个可能的答案:语音同意门。这是一个系统,只有当说话者明确表示同意时,才能克隆其声音。换句话说,除非你同意,否则模型不会用你的声音说话。
语音同意门是该公司正在探索的基础设施,它提供了将同意等伦理原则直接嵌入 AI 系统工作流程的方法。在演示中,这意味着只有在说话者的同意短语被说出并识别后,模型才会启动,从而有效地使同意成为行动的先决条件。
要创建带有语音同意门的基本语音克隆系统,需要三个部分:一种为将被克隆声音的说话者生成新颖同意句子的方法,一个识别传达同意句子的自动语音识别系统,以及一个将文本和说话者的语音片段作为输入来生成语音的语音克隆文本转语音系统。
Hugging Face 观察到,由于一些语音克隆系统现在只需一个句子就能生成与说话者声音相似的语音,因此用于同意的句子也可用于语音克隆。
在英语语音克隆系统中创建语音同意门时,需要生成一个简短、自然的英语话语供人朗读,明确表达他们在当前情境下的知情同意。建议明确包含同意短语和模型名称。