NVIDIA 与马里兰大学合作推出了一种创新的 AI 模型,名为 QUEEN,旨在变革动态场景重建领域。据 NVIDIA Research 表示,该模型能够流传自由视点视频,让用户从任意角度体验 3D 场景。
革新内容流式传输
QUEEN 的功能适用于多种应用,包括沉浸式教育工具、增强的体育观赏体验和先进的视频会议。它还可以通过促进仓库或制造环境中的机器人远程操作来支持工业应用。
技术进步
在 NeurIPS 2024 会议上,QUEEN 展示了平衡压缩率、视觉质量和渲染时间等关键因素的能力。NVIDIA 的研究总监 Shalini De Mello 强调了 QUEEN 的优化流程,设定了视觉质量和接近实时流媒体的新标准。
效率与质量结合
QUEEN 解决了先前 AI 方法在内存使用和视觉质量方面的挑战。通过高效地重建和压缩 3D 场景,QUEEN 即便在动态环境中也能提供高质量的视觉效果。它比以前的方法更快地渲染这些视觉效果,支持各种流媒体应用。
创新应用案例
该模型能够跟踪并重用视频场景中的静态区域,从而显著减少计算需求,并专注于动态内容区域。这一创新使得 QUEEN 能以每秒约 350 帧的速度渲染自由视点视频,仅需五秒的训练时间。
潜在应用包括媒体广播,其中 QUEEN 可在体育赛事中提供沉浸式虚拟现实体验或即时重播。在工业环境中,它可以提高机器人操作员的深度感知,而在视频会议中,它允许用户选择最具信息量的观看角度。
开放源码和未来展望
NVIDIA 计划将 QUEEN 作为开放源代码发布,推动 AI 应用的研究和开发。该模型属于 NeurIPS 的 50 多篇 NVIDIA 撰写的论文中的一部分,这些论文展示了在模拟、机器人和医疗保健等多个领域的突破性 AI 研究。
QUEEN 的推出标志着 AI 驱动的视频流领域的一次重大飞跃,在内容传递和用户参与方面提供了新的可能性。
Image source: Shutterstock