随着 NVIDIA 最近扩展其 NeMo 平台,多模态生成 AI 模型的开发取得了重大进展。据NVIDIA称,增强的平台如今提供了一个端到端的解决方案,用于创建、定制和部署这些先进的 AI 模型。
NVIDIA NeMo 及其多模态功能
NVIDIA NeMo 旨在简化利用多种数据类型(如文本、图像和视频)开发 AI 模型的过程。这一进步超越了传统的基于文本的模型,整合了图像标注和视觉问答等任务。尤其是视频 AI 模型的集成,因其在机器人、汽车和零售等行业中开启了变革性的可能性而备受瞩目。
在机器人领域,例如,视频 AI 模型提高了自主导航能力,这对制造和仓库管理环境至关重要。在汽车行业,这些模型改善了车辆感知和安全性,有助于推动自动驾驶技术的发展。
通过 NeMo Curator 增强数据策划
NVIDIA NeMo 扩展的核心是 NeMo Curator,它是一种促进视觉数据快速高效策划的工具。这种功能至关重要,因为高质量的训练数据对于生成精确的 AI 模型至关重要。NeMo Curator 的编排管道可以在 PB 级别上管理数据处理,优化多个 GPU 的使用,并显著减少视频处理时间。
通过提供用于视频策划的参考模型以提高数据集质量,NeMo Curator 使开发者能够创建更精确的 AI 模型。例如,经过优化的标注模型相比传统的推理方法大大改善了处理效率。
使用 NVIDIA Cosmos 进行高级标记化
NVIDIA 还推出了 Cosmos 标记器,它提供高效的视觉数据标记化。这些标记器将复杂的视觉数据转换为紧凑的语义标记,促进大规模生成模型的训练,同时尽量减少计算需求。
Cosmos 标记器以其生成高质量图像和视频重建的能力脱颖而出,实现的压缩率远优于现有解决方案。这种效率转化为更快的处理时间和减少的资源需求,提高了开发人员的生产力和用户体验。
构建下一代 AI 模型
NeMo Curator 和 Cosmos 标记器在 NeMo 平台中的集成代表着多模态生成 AI 开发的重大进展。这些工具使开发者能够高效构建最先进的 AI 模型,利用高质量的数据处理和创新的标记技术。
随着 NVIDIA 的不断创新,NeMo 平台将在各个领域的 AI 技术演变中发挥关键作用,推进多模态生成 AI 的能力。
Image source: Shutterstock