NVIDIA Maxine在SIGGRAPH 2024上揭示下一代数字人和远程呈现创新

realtime news  Jul 30, 2024 12:10  UTC 04:10

1 Min Read

在SIGGRAPH 2024上,NVIDIA展示了最新的Maxine AI开发者平台进展,该平台通过NVIDIA AI Enterprise提供。此平台旨在增强音频和视频质量,并实现增强现实效果。

新的功能和增强

NVIDIA宣布Maxine 3D和Maxine视频光照技术即将向早期访问开发者开放,同时Maxine眼睛接触微服务正式投入生产。这些创新旨在为各种应用带来逼真的数字人和沉浸式远程呈现体验。

Maxine 3D与NVIDIA ACE(一套生成性人工智能技术)结合,使用标准视频会议设备实现实时、写实的3D头像。眼睛接触和Audio2Face-2D(也称为语音直播头像)功能现在可通过NVIDIA API目录访问,提供了更好的发现性和试用选项。

突破性技术

Maxine 3D突出了其将2D视频头像输入实时转换为沉浸式3D头像的能力。这项技术与NVIDIA RTX渲染集成,提供逼真的视觉效果,将标准2D视频输入转变为动态3D头像。Looking Glass的联合创始人兼首席执行官Shawn Frayne强调了Maxine在实现物理空间间虚拟传输方面的潜力。

Looking Glass正在与NVIDIA Research合作,使用全息3D显示器创建一个创新的视频会议展示。这一合作利用了NVIDIA RTX 6000 Ada GPU和Maxine 3D,使多个观众能够无需头戴式显示器或眼球追踪即可同时体验真实的3D内容。

增强的可发现性和可访问性

NVIDIA将Maxine功能引入其API目录,开发者可以轻松探索和试用最前沿的能力。这些功能也以NVIDIA NIM微服务的形式提供,为AI部署提供高优化解决方案,带有预构建容器和行业标准API。

作为NVIDIA AI Enterprise软件平台的一部分,这些微服务经过严格的验证、安全更新和企业支持,是企业寻求强大解决方案的理想选择。

高级视频和音频增强

引入了几个新的和增强的功能以改善用户体验:

  • 视频光照
  • 工作室语音
  • 背景噪音消除2.0
  • Maxine托管API

视频光照

目前处于早期访问阶段的Maxine视频光照微服务,使用AI实时匹配前景照明与各种背景和环境。这确保了主体在任何物理环境下都能呈现最佳状态。

工作室语音

最新版本的工作室语音在质量和性能方面有显著改进,使其在实时通讯中具有可行性,并将工作室质量的音频带入日常视频会议设置中。

背景噪音消除2.0

此功能在音频清晰度方面设定了新标准,有效消除背景噪音,同时保留自然的语音质量。结合自动语音识别(ASR)技术时,它特别有用,可以减少转录错误。

赋能开发者和行业

NVIDIA Maxine是一个综合平台,使得为远程呈现和数字人创建下一代应用程序成为可能。它提供了赋能娱乐、游戏、医疗和教育等行业的工具。

随着虚拟影响者、AI助手和数字头像变得越来越普遍,Maxine的技术为创建可信且引人入胜的数字人物奠定了基础。

展望未来

SIGGRAPH 2024展示了NVIDIA Maxine将在数字通信和远程呈现的未来中发挥关键作用。凭借其高级AI能力和对开发者可访问性的关注,Maxine开发者平台有望开启数字空间互动的新可能性。

结合Maxine 3D、先进的视听增强功能和易于集成的API,NVIDIA合作伙伴处于数字人革命的前沿。随着这些技术市场的增长,NVIDIA的创新有望在各个行业推动下一波沉浸式、逼真的数字体验。

欲了解更多信息,请访问NVIDIA官方博客



Read More