NVIDIA 发布 BigVGAN v2：开创零样本波形音频生成

NVIDIA 发布 BigVGAN v2：开创零样本波形音频生成 - Blockchain.News

根据 NVIDIA 技术博客，NVIDIA 宣布发布 BigVGAN v2，一款创新的零样本波形音频生成 AI 模型。新模型在速度和质量上实现了显著提升，定位为音频生成 AI 领域的最先进解决方案。

BigVGAN：通用神经声码器

BigVGAN 是一款通用神经声码器，设计用于从 Mel 频谱图合成音频波形。该模型采用完全卷积架构，包含多个上采样块和残差扩张卷积层。一个关键功能是反混叠多周期组成 (AMP) 模块，优化生成高频和周期性声波，从而减少伪影。

BigVGAN v2 的改进

BigVGAN v2 引入了相对于其前身的几项改进：

最先进的音频质量，在各种指标和音频类型上表现优异。
高达3倍的合成速度，通过优化的 CUDA 内核实现。
预训练检查点，适用于多种音频配置。
支持最高采样率达 44 kHz，覆盖人耳可听到的最高频率。

生成世界上的每一种声音

波形音频生成对虚拟世界至关重要，并且一直是研究的重要焦点。BigVGAN v2 通过提供高质量、细节丰富的音频解决了以前的限制。该模型使用 NVIDIA A100 Tensor Core GPUs 进行训练，训练数据集比其前身大100多倍。BigVGAN v2 能够从各种领域生成高质量的声波，包括语音、环境声音和音乐。

达到人耳可以检测到的最高频率声波

以前的模型限制在 22 kHz 到 24 kHz 之间的采样率。BigVGAN v2 将这一范围扩展到 44 kHz，捕捉人类听觉范围内的全部频谱。这使得该模型能够再现全面的音景，从音乐中的强劲鼓声到清脆的镲音。

通过定制 CUDA 内核实现更快的合成

BigVGAN v2 还具有加速的合成速度，通过使用定制的 CUDA 内核实现高达3倍的推理速度。这些内核使得在单个 NVIDIA A100 GPU 上生成音频波形的速度高达实时的240倍。

音频质量的结果

BigVGAN v2 对语音和一般音频的音频质量表现优于其前身，并且在 44 kHz 采样率下与 Descript 音频编解码器相当。这表明该模型能够在各种音频类型中生成高质量的波形。

结论

NVIDIA 的 BigVGAN v2 在音频合成方面树立了新基准，在所有音频类型上实现了最先进的质量，并覆盖了人类听觉的全频范围。该模型的合成速度现已提高到3倍，使其在各种音频配置中更为高效。

更多信息，用户可查看 GitHub 上的 BigVGAN v2 模型卡。

Image source: Shutterstock