NVIDIA和Meta合作推出Llama 3.1和NeMo Retriever NIMs的先进RAG管道
在大语言模型(LLM)的重大进展中,NVIDIA和Meta联合推出了一个新框架,结合了Llama 3.1和NVIDIA NeMo Retriever NIMs,旨在增强检索增强生成(RAG)管道。据NVIDIA技术博客称,该合作旨在优化LLM响应,确保其最新和准确。
增强RAG管道
检索增强生成(RAG)是一种防止LLM生成过时或错误响应的重要策略。各种检索策略,如语义搜索或图检索,改进了用于准确生成所需文档的召回。然而,没有一刀切的方法,检索管道需要根据特定的数据需求和超参数进行定制。
现代RAG系统越来越多地采用代理框架来处理推理、决策和对检索数据的反思。代理系统使LLM能够通过问题进行推理,创建计划,并使用一组工具来执行这些计划。
Meta的Llama 3.1和NVIDIA NeMo Retriever NIMs
Meta的Llama 3.1家族,覆盖从80亿到4050亿参数的模型,配备了处理代理工作负载的能力。这些模型可以分解任务,充当中央计划者,并进行多步骤推理,同时保持模型和系统级别的安全检查。
NVIDIA通过其NeMo Retriever NIM微服务优化了这些模型的部署,提供企业级可扩展软件,以定制其数据依赖的RAG管道。NeMo Retriever NIMs可以集成到现有的RAG管道中,并与开源LLM框架如LangChain或LlamaIndex配合使用。
LLM和NIM:强强联手
在可定制的代理RAG中,具有函数调用能力的LLM在决策检索数据、生成结构输出和调用工具方面发挥了重要作用。NeMo Retriever NIMs通过提供最先进的文本嵌入和重新排序能力增强了这一过程。
NVIDIA NeMo Retriever NIMs
与NVIDIA Triton推理服务器和NVIDIA TensorRT一起打包的NeMo Retriever微服务提供了多个优势:
- 可扩展部署:无缝扩展以满足用户需求。
- 灵活集成:轻松集成到现有工作流程和应用程序中。
- 安全处理:确保数据隐私和严格的数据保护。
Meta Llama 3.1工具调用
Llama 3.1模型旨在提供强大的代理功能,允许LLM计划和选择合适的工具来解决复杂问题。这些模型支持OpenAI风格的工具调用,便于生成结构化输出,而无需正则表达式解析。
代理RAG
代理框架通过增加决策和自我反思层来增强RAG管道。这些框架,如自我RAG和纠正RAG,通过确保生成后的验证和与事实信息的对齐,提高了检索数据及生成响应的质量。
架构和节点规格
多代理框架如LangGraph允许开发人员将LLM应用级逻辑分组到节点和边中,提供对代理决策更细致的控制。值得注意的节点包括:
- 查询分解器:将复杂问题分解为较小的逻辑部分。
- 路由器:决定文档检索的来源或处理响应。
- 检索器:实施核心RAG管道,通常结合语义和关键词搜索方法。
- 评分器:检查检索段落的相关性。
- 幻觉检查器:核实生成内容的事实准确性。
根据具体的使用案例,可以集成额外的工具,例如用于回答趋势或增长相关问题的财务计算器。
入门
开发人员可以在NVIDIA的AI平台上访问NeMo Retriever嵌入和重新排序NIM微服务,以及Llama 3.1 NIMs。NVIDIA开发者Jupyter笔记本中提供了详细的实施指南。
Read More
NVIDIA AI Foundry Introduces Custom Llama 3.1 Generative AI Models for Enterprises
Jul 23, 2024 1 Min Read
Llama 3.1 Now Optimized for AMD Platforms from Data Center to AI PCs
Jul 23, 2024 1 Min Read
Pantera Capital Highlights Political Shift Towards Blockchain
Jul 23, 2024 1 Min Read
Arkham Intelligence Identifies Onchain Locations for All ETH ETFs
Jul 23, 2024 1 Min Read
Arcade Enhances Interactive Demos with ElevenLabs’ AI Voice Technology
Jul 23, 2024 1 Min Read