NVIDIA和Meta合作推出Llama 3.1和NeMo Retriever NIMs的先进RAG管道

realtime news Jul 24, 2024 06:08 UTC 22:08

1 Min Read

在大语言模型（LLM）的重大进展中，NVIDIA和Meta联合推出了一个新框架，结合了Llama 3.1和NVIDIA NeMo Retriever NIMs，旨在增强检索增强生成（RAG）管道。据NVIDIA技术博客称，该合作旨在优化LLM响应，确保其最新和准确。

增强RAG管道

检索增强生成（RAG）是一种防止LLM生成过时或错误响应的重要策略。各种检索策略，如语义搜索或图检索，改进了用于准确生成所需文档的召回。然而，没有一刀切的方法，检索管道需要根据特定的数据需求和超参数进行定制。

现代RAG系统越来越多地采用代理框架来处理推理、决策和对检索数据的反思。代理系统使LLM能够通过问题进行推理，创建计划，并使用一组工具来执行这些计划。

Meta的Llama 3.1家族，覆盖从80亿到4050亿参数的模型，配备了处理代理工作负载的能力。这些模型可以分解任务，充当中央计划者，并进行多步骤推理，同时保持模型和系统级别的安全检查。

NVIDIA通过其NeMo Retriever NIM微服务优化了这些模型的部署，提供企业级可扩展软件，以定制其数据依赖的RAG管道。NeMo Retriever NIMs可以集成到现有的RAG管道中，并与开源LLM框架如LangChain或LlamaIndex配合使用。

在可定制的代理RAG中，具有函数调用能力的LLM在决策检索数据、生成结构输出和调用工具方面发挥了重要作用。NeMo Retriever NIMs通过提供最先进的文本嵌入和重新排序能力增强了这一过程。

与NVIDIA Triton推理服务器和NVIDIA TensorRT一起打包的NeMo Retriever微服务提供了多个优势：

Llama 3.1模型旨在提供强大的代理功能，允许LLM计划和选择合适的工具来解决复杂问题。这些模型支持OpenAI风格的工具调用，便于生成结构化输出，而无需正则表达式解析。

代理框架通过增加决策和自我反思层来增强RAG管道。这些框架，如自我RAG和纠正RAG，通过确保生成后的验证和与事实信息的对齐，提高了检索数据及生成响应的质量。

多代理框架如LangGraph允许开发人员将LLM应用级逻辑分组到节点和边中，提供对代理决策更细致的控制。值得注意的节点包括：

根据具体的使用案例，可以集成额外的工具，例如用于回答趋势或增长相关问题的财务计算器。

开发人员可以在NVIDIA的AI平台上访问NeMo Retriever嵌入和重新排序NIM微服务，以及Llama 3.1 NIMs。NVIDIA开发者Jupyter笔记本中提供了详细的实施指南。