NVIDIA NeMo T5-TTS 模型解决语音合成中的幻觉问题

realtime news  Jul 03, 2024 16:56  UTC 08:56

1 Min Read

根据 NVIDIA 技术博客,NVIDIA NeMo 推出了其最新的文本到语音 (TTS) 技术创新——T5-TTS 模型。这个新模型代表了该领域的重大进步,利用大语言模型 (LLM) 来生成更准确和更自然的语音。

LLM 在语音合成中的作用

LLM 在自然语言处理 (NLP) 中具有理解和生成连贯文本的能力,彻底改变了这一领域。最近,这些模型已被改编用于语音领域,捕捉人类语音模式和语调的细微差别。这种改编导致语音合成模型生成更自然和富有表现力的语音,开辟了各种应用的新可能性。

然而,类似于在文本处理中使用时,语音合成中的 LLM 也面临幻觉的问题,这可能会阻碍其在实际应用中的部署。

T5-TTS 模型概述

T5-TTS 模型利用编码器-解码器转换器架构进行语音合成。编码器处理文本输入,而自回归解码器则从目标说话人那里获取参考语音提示以生成语音 token。通过转换器的交叉注意力头来学习对齐文本和语音,这些 token 是通过关注编码器的输出来创建的。尽管这些头部非常稳健,但当输入文本包含重复词汇时,它们可能会出现问题。

图 1. NVIDIA NeMo T5-TTS 模型及其对齐过程概述

解决幻觉问题

TTS 中的幻觉是指生成的语音偏离预期文本,导致从小的误读到完全错误的词汇等错误。这些不准确性可能会影响 TTS 系统在辅助技术、客户服务和内容创作等关键应用中的可靠性。

T5-TTS 模型通过更有效地对齐文本输入与相应的语音输出,显著减少了幻觉问题。通过应用单调对齐先验和连接时序分类 (CTC) 损失,生成的语音能够更接近预期文本,从而使 TTS 系统更加可靠和准确。在单词发音方面,T5-TTS 模型的错误率比 Bark 减少 2 倍,比 VALLE-X 减少 1.8 倍,比 SpeechT5 减少 1.5 倍。

图 2. 使用不同基于 LLM 的 TTS 模型在 100 个具有挑战性的文本输入上合成语音的可理解性指标

影响和未来研究

NVIDIA NeMo 发布的 T5-TTS 模型标志着 TTS 系统的重大进步。通过有效解决幻觉问题,该模型为更可靠和高质量的语音合成奠定了基础,增强了用户在广泛应用中的体验。

展望未来,NVIDIA NeMo 团队计划通过扩展语言支持、提高捕捉多样化语音模式的能力,并将其集成到更广泛的 NLP 框架中,进一步优化 T5-TTS 模型。

探索 NVIDIA NeMo T5-TTS 模型

T5-TTS 模型在实现更准确和自然的文本到语音合成方面取得了重大突破。其学习稳健文本和语音对齐的创新方法为该领域设立了新的基准,有望改变我们与 TTS 技术的互动和收益方式。

要访问 T5-TTS 模型并开始探索其潜力,请访问 GitHub 上的 NVIDIA/NeMo 无论您是研究人员、开发人员还是爱好者,这个强大的工具为文本到语音技术领域的创新和进步提供了无数可能性。欲了解更多信息,请参阅 通过学习单调对齐改进基于 LLM 的语音合成的鲁棒性

致谢

我们感谢所有为这项工作做出贡献的模型作者和合作者,包括 Paarth Neekhara、Shehzeen Hussain、Subhankar Ghosh、Jason Li、Boris Ginsburg、Rafael Valle 和 Rohan Badlani。



Read More