生成式AI通过ReMEmbR赋能机器人进行推理和行动

realtime news Sep 24, 2024 15:25 UTC 07:25

1 Min Read

根据NVIDIA技术博客，NVIDIA发布了ReMEmbR，一个利用生成式AI使机器人能够基于其长期观测进行推理和行动的开创性项目。

创新的视觉语言模型

视觉语言模型（VLMs）结合了基础大语言模型（LLMs）的强大语言理解能力和视觉变压器（ViTs）的视觉能力。这些模型将文本和图像投射到相同的嵌入空间，使它们能够处理非结构化的多模态数据，对其进行推理并返回结构化输出。通过广泛的预训练，VLMs可以通过新的提示或参数高效微调适应各种视觉相关任务。

ReMEmbR集成了LLMs、VLMs和检索增强生成（RAG），使机器人能够基于长时间观测进行推理和行动，从几小时到几天不等。该系统旨在解决处理大范围上下文、在空间记忆上推理以及构建提示驱动的代理以查询更多数据直至回答用户问题等挑战。

项目的记忆构建阶段使用VLMs和向量数据库创建长时间的语义记忆。在查询阶段，一个LLM代理对这些记忆进行推理。ReMEmbR完全开源，并且在设备上运行，使其适用于各种应用。

为了展示ReMEmbR的能力，NVIDIA开发了一个使用Nova Carter和NVIDIA Isaac ROS的实际示例。配备ReMEmbR的机器人可以在办公环境中回答问题并引导个人。这次演示展示了系统构建占用网格图、运行记忆构建器以及操作ReMEmbR代理的能力。

在演示中，机器人使用单目相机和全局位置信息创建一个向量数据库。该数据库存储文本嵌入、时间戳和位置信息，使机器人能够有效查询和检索信息，以执行诸如引导用户到特定位置的任务。

认识到直观用户互动的需求，NVIDIA将语音识别集成到ReMEmbR系统中。通过WhisperTRT项目，优化了OpenAI的Whisper模型，结合NVIDIA TensorRT，机器人可以处理口语查询并生成适当的响应，从而提升用户体验。

ReMEmbR通过结合生成式AI、VLMs和RAG的创新方法，为机器人应用开辟了新可能性。通过提供机器人基于长期观测进行推理和行动的能力，这项技术有可能彻底改变自主导航、监控和互动辅助等领域。

对于有兴趣探索机器人领域生成式AI的人，NVIDIA通过其开发者计划提供了丰富的资源和文档，包括教程、代码示例和社区支持，帮助开发者开始他们的生成式AI机器人应用。