NVIDIA推出用于边缘部署的生成式AI驱动视觉AI代理

NEW

NVIDIA推出用于边缘部署的生成式AI驱动视觉AI代理 - Blockchain.News

据NVIDIA技术博客报道，视觉语言模型（VLMs）在AI技术上取得了令人兴奋的突破，提供了一种更动态和灵活的视频分析方法。VLMs使用户能够使用自然语言与图像和视频输入进行交互，使技术更加易于访问和适应。这些模型可以在NVIDIA Jetson Orin边缘AI平台或通过NIMs的独立GPU上运行。

什么是视觉AI代理？

视觉AI代理由VLM驱动，用户可以用自然语言询问一系列广泛的问题，并从录制或实时视频中获得反映真实意图和上下文的见解。通过易于使用的REST API进行交互，并与其他服务和移动应用程序集成。这一代新的视觉AI代理有助于总结场景，创建各种警报，并使用自然语言从视频中提取可操作的见解。

NVIDIA Metropolis带来了视觉AI代理工作流，这些参考解决方案加速了由VLMs驱动的AI应用程序的开发，从边缘或云端的视频中提取具有上下文理解的见解。

对于云端部署，开发人员可以使用NVIDIA NIM，这是一组包含行业标准API、领域特定代码、优化的推理引擎和企业运行时的推理微服务，为视觉AI代理提供动力。访问API目录，直接从浏览器探索和尝试基础模型，开始吧。

为边缘构建视觉AI代理

Jetson平台服务是一套预构建的微服务，提供构建NVIDIA Jetson Orin计算机视觉解决方案所需的基本开箱功能。这些微服务包括支持零样本检测和最先进VLMs等生成式AI模型的AI服务。VLMs结合了大型语言模型和视觉变压器，实现了对文本和视觉输入的复杂推理。

Jetson上首选的VLM是VILA，其通过优化每图像的标记速度，提供了最先进的推理能力。通过将VLMs与Jetson平台服务相结合，可以创建基于VLM的视觉AI代理应用程序，检测实时流媒体摄像头上的事件，并通过移动应用程序向用户发送通知。

与移动应用程序的集成

完整的端到端系统现在可以集成到移动应用程序中，以构建VLM驱动的视觉AI代理。为了给VLM提供视频输入，Jetson平台服务网络服务和VST自动发现和服务连接到网络的IP摄像机。通过VST REST API，这些摄像机被提供给VLM服务和移动应用程序使用。

用户可以从应用程序中使用自然语言设置自定义警报，例如“是否有火灾”并在其选定的直播流上设置警报规则。一旦设置好警报规则，VLM会评估直播，并通过连接到移动应用程序的WebSocket实时通知用户。这将触发移动设备上的弹出通知，允许用户在聊天模式中问后续问题。

结论

这一发展强调了VLMs与Jetson平台服务相结合，构建先进视觉AI代理的潜力。VLM AI服务的完整源代码可以在GitHub上获得，为开发人员提供了学习如何使用VLMs并构建自己微服务的参考。

欲了解更多信息，请访问NVIDIA技术博客。

Image source: Shutterstock

Flash News

Analysis of OMNI's Bullish Pattern and Price Target

1/17/2025 7:38:00 PM

OMNI Shows Rounded Bottom Pattern with Potential Bullish Target

1/17/2025 7:38:00 PM

Uniswap v4 Launch Preview and Developer Insights

1/17/2025 7:30:46 PM

Uniswap v4 Development and Community Insights

1/17/2025 7:30:46 PM

El Salvador's Role in Plan B El Salvador for Cryptocurrency Growth

1/17/2025 6:56:19 PM

Email us at info@blockchain.news