据NVIDIA技术博客报道,视觉语言模型(VLMs)在AI技术上取得了令人兴奋的突破,提供了一种更动态和灵活的视频分析方法。VLMs使用户能够使用自然语言与图像和视频输入进行交互,使技术更加易于访问和适应。这些模型可以在NVIDIA Jetson Orin边缘AI平台或通过NIMs的独立GPU上运行。
什么是视觉AI代理?
视觉AI代理由VLM驱动,用户可以用自然语言询问一系列广泛的问题,并从录制或实时视频中获得反映真实意图和上下文的见解。通过易于使用的REST API进行交互,并与其他服务和移动应用程序集成。这一代新的视觉AI代理有助于总结场景,创建各种警报,并使用自然语言从视频中提取可操作的见解。
NVIDIA Metropolis带来了视觉AI代理工作流,这些参考解决方案加速了由VLMs驱动的AI应用程序的开发,从边缘或云端的视频中提取具有上下文理解的见解。
对于云端部署,开发人员可以使用NVIDIA NIM,这是一组包含行业标准API、领域特定代码、优化的推理引擎和企业运行时的推理微服务,为视觉AI代理提供动力。访问API目录,直接从浏览器探索和尝试基础模型,开始吧。
为边缘构建视觉AI代理
Jetson平台服务是一套预构建的微服务,提供构建NVIDIA Jetson Orin计算机视觉解决方案所需的基本开箱功能。这些微服务包括支持零样本检测和最先进VLMs等生成式AI模型的AI服务。VLMs结合了大型语言模型和视觉变压器,实现了对文本和视觉输入的复杂推理。
Jetson上首选的VLM是VILA,其通过优化每图像的标记速度,提供了最先进的推理能力。通过将VLMs与Jetson平台服务相结合,可以创建基于VLM的视觉AI代理应用程序,检测实时流媒体摄像头上的事件,并通过移动应用程序向用户发送通知。
与移动应用程序的集成
完整的端到端系统现在可以集成到移动应用程序中,以构建VLM驱动的视觉AI代理。为了给VLM提供视频输入,Jetson平台服务网络服务和VST自动发现和服务连接到网络的IP摄像机。通过VST REST API,这些摄像机被提供给VLM服务和移动应用程序使用。
用户可以从应用程序中使用自然语言设置自定义警报,例如“是否有火灾”并在其选定的直播流上设置警报规则。一旦设置好警报规则,VLM会评估直播,并通过连接到移动应用程序的WebSocket实时通知用户。这将触发移动设备上的弹出通知,允许用户在聊天模式中问后续问题。
结论
这一发展强调了VLMs与Jetson平台服务相结合,构建先进视觉AI代理的潜力。VLM AI服务的完整源代码可以在GitHub上获得,为开发人员提供了学习如何使用VLMs并构建自己微服务的参考。
欲了解更多信息,请访问NVIDIA技术博客。
Image source: Shutterstock