NVIDIA 推出 Fugatto:革命性 AI 驱动的音频变换器

realtime news  Nov 25, 2024 21:58  UTC 13:58

1 Min Read

NVIDIA 推出了一款突破性的生成性 AI 模型 Fugatto,据称将通过允许用户使用文本和音频提示生成和转换音乐、声音和语音来革新音频产业。根据 NVIDIA 的博客,这款创新工具被定位为“声音界的瑞士军刀”。

Fugatto 的独特能力

Fugatto,全称“Foundational Generative Audio Transformer Opus 1”,以其在音频操作上的无与伦比的灵活性脱颖而出。与现有处理单一任务的 AI 模型不同,Fugatto 能执行复杂的音频转换。它可以通过文本提示创建音乐片段,修改歌曲中的乐器,并改变声音的口音或情感。用户甚至可以产生全新的声音,大大拓展了创造性可能性。

一铆即发(One Take Audio)的多白金制作人兼联合创始人 Ido Zmishlany 表达了他的热情,他说:“声音是我的灵感。在工作室中可以随时创造全新的声音的想法令人难以置信。”他的公司是 NVIDIA Inception 计划的一部分,支持前沿初创企业。

在各行业的应用

Fugatto 的潜在应用十分广泛,涵盖多个行业。音乐制作人可以利用它快速制作或编辑歌曲创意,尝试不同风格并提升音质。广告公司可以通过改变配音的口音和情感来为不同区域量身定制活动。此外,语言学习工具可以个性化,让学习者选择他们熟悉的声音,如家人或朋友。

电子游戏开发者也能显著受益。Fugatto 可以修改预录资产以匹配变动的游戏玩法或按需创建新声音,为玩家提供动态的音频体验。

技术创新与发展

Fugatto 被设计用于支持众多音频生成和转换任务,展示了其多功能性互动产生的突现属性。据 NVIDIA 应用音频研究经理 Rafael Valle 所述,Fugatto 代表音频合成和转换领域中无监督多任务学习的一步。

模型在推理过程中运用了名为 ComposableART 的技术,允许用户组合独立训练的指令。这使得音频属性,如口音强度或情感基调,能够精细把控。

Fugatto 由来自全球的多元化团队开发,增强了其多语言和多口音能力。该模型是在 NVIDIA 的 DGX 系统上训练的,使用了 25 亿个参数和 32 个 NVIDIA H100 Tensor Core GPU,体现了其强大的计算基础。

未来前景

凭借 Fugatto,NVIDIA 站在将人工智能整合到音频技术前沿,为艺术家和开发者提供了一个强大的工具来探索新的创造性领域。该模型能够生成从未见过的声音,如从雷雨过渡到宁静黎明,强调了其重新定义音频创作的潜力。

有关 Fugatto 的更多信息,请访问 NVIDIA 博客



Read More