NVIDIA在CVPR 2024展示尖端视觉生成AI研究

NVIDIA在CVPR 2024展示尖端视觉生成AI研究 - Blockchain.News

NVIDIA Research计划在2024年6月17日至21日于西雅图举行的计算机视觉与模式识别（CVPR）大会上展示超过50篇论文，突显在视觉生成AI方面的重要进展。根据NVIDIA Blog的报道，这些研究涵盖了创意产业、自主车辆开发、医疗保健和机器人等领域的潜在应用。

生成AI的多样化应用

在众多值得注意的项目中，两篇关于扩散模型训练动态和高分辨率地图用于自主车辆的论文入围了CVPR最佳论文奖的决赛。NVIDIA还赢得了CVPR Autonomous Grand Challenge的端到端大规模驾驶赛道，展示了超越全球450多项参赛作品的综合自驾模型，荣获CVPR创新奖。

NVIDIA的研究包括一个易于为特定对象或角色定制的文本到图像模型，一个新的对象姿态估计模型，编辑神经辐射场（NeRFs）的技术，以及一个能够理解表情包的视觉语言模型。这些创新旨在赋能创作者，加速自主机器人训练，并帮助医疗专业人员处理放射学报告。

“人工智能，特别是生成AI，代表了一个关键的技术进步，”NVIDIA学习与感知研究副总裁Jan Kautz说。“在CVPR大会上，NVIDIA Research将展示我们如何突破可能性的边界——从强大的图像生成模型到有助于实现下一代自驾车的软件。”

JeDi：简化定制图像生成

一篇突出的论文JeDi提出了一种技术，可以使用户在几秒钟内使用参考图像个性化扩散模型的输出，超越现有的微调方法。这一创新与约翰·霍普金斯大学、芝加哥丰田技术研究所和NVIDIA合作开发，可能惠及需要特定角色描绘或产品图像的创作者。

FoundationPose和NeRFDeformer

FoundationPose是另一个研究亮点，是一个用于对象姿态估计和跟踪的基础模型。它可以使用参考图像或3D表示在无需微调的情况下应用于新对象，在视频中3D跟踪对象，即使在具有挑战性的条件下。这个模型可以增强工业应用和增强现实。

NeRFDeformer与伊利诺伊大学厄巴纳-香槟分校合作开发，简化了使用单个RGB-D图像转换NeRFs的过程，简化了将捕获的2D图像更新为3D场景的过程。

VILA：推进视觉语言模型

NVIDIA与麻省理工学院合作，推出了VILA，一组在回答有关图像问题的性能上超越先前模型的视觉语言模型。VILA的预训练过程增强了世界知识、上下文学习和跨多个图像的推理，使其成为各种应用的强大工具。

生成AI在自主驾驶和智慧城市中的应用

NVIDIA在CVPR上对自主车辆研究的贡献包括十几篇论文。此外，NVIDIA向AI City Challenge提供了有史以来最大的室内合成数据集，帮助开发智慧城市解决方案和工业自动化。这些数据集是使用NVIDIA Omniverse生成的，这个平台使开发者能够构建基于Universal Scene Description（OpenUSD）的应用程序和工作流程。

NVIDIA Research在全球有数百名科学家和工程师，继续在AI、计算机图形学、计算机视觉、自驾车和机器人技术方面突破边界。了解他们在CVPR 2024上突破性工作的更多信息，请访问NVIDIA Blog。

Image source: Shutterstock