在 AI 模型训练的重大进展中,Nvidia 推出了一个生成式 AI 启用的合成数据管道,旨在增强感知 AI 模型的发展。据 Nvidia 称,这种创新方法解决了获取多样化和广泛数据集的挑战,对于为自动机器如机器人和自动驾驶车辆提供动力的 AI 模型训练至关重要。
合成数据的角色
通过数字孪生和计算机模拟生成的合成数据为真实世界数据提供了替代方案。它使开发者能够通过改变布局、资产位置和照明情况等参数来快速生成大量和多样的数据集。这种方法不仅加快了数据生成过程,还帮助创建能够处理各种场景的通用模型。
生成式 AI:游戏规则改变者
生成式 AI 通过自动化传统上手动和耗时的任务来简化合成数据生成过程。先进的扩散模型,如 Edify 和 SDXML,促进了从文本或图像描述中快速创建高质量视觉内容。这些模型通过程序化调整图像参数如色彩方案和光照来显著减少手动工作,从而加快了多样数据集的创建。
此外,生成式 AI 允许高效的图像增强,而无需修改整个 3D 场景。开发者可以通过简单的文本提示快速引入真实细节,提高生产力并丰富数据集多样性。
实施参考工作流程
Nvidia 的合成数据生成参考工作流程专为从事机器人和智能空间计算机视觉模型开发的开发者量身定制,涉及几个关键步骤:
- 场景创建: 构建一个可以动态增强丰富对象和背景的综合 3D 环境。
- 域随机化: 利用 USD Code NIM 等工具进行域随机化,自动改变场景参数。
- 数据生成: 使用各种格式和编写器导出符合特定模型要求的标注图像。
- 数据增强: 使用生成式 AI 模型来增强图像的多样性和真实感。
技术基础
该工作流程依托于几个核心技术,包括:
- Edify 360 NIM: 一个用于生成 360 度 HDRI 图像的服务,基于 Nvidia 的平台进行训练。
- USD Code: 一个用于生成 USD Python 代码和回答 OpenUSD 查询的语言模型。
- Omniverse Replicator: 一个用于开发定制合成数据生成管道的框架。
工作流程的好处
通过采用此工作流程,开发者可以加速 AI 模型训练,解决隐私问题,提高模型精度,并在制造、汽车和机器人等各个行业中扩展数据生成过程。这一发展标志着克服数据限制并增强感知 AI 模型能力的重大一步。
Image source: Shutterstock