NVIDIA推出NeMo Retriever以增强RAG管道性能
企业正越来越多地寻求利用其大量数据储备来提高运营效率、降低成本并提升生产力。NVIDIA的最新产品NeMo Retriever旨在通过使开发人员能够构建和部署先进的检索增强生成(RAG)管道来实现这一目标。根据NVIDIA技术博客,NeMo Retriever系列推出了四个新的基于社区的NeMo Retriever NIMs,专为文本嵌入和重排序而设计。
增强文本检索的新模型
NVIDIA宣布发布三个NeMo Retriever嵌入NIM和一个NeMo Retriever重排序NIM。这些模型是:
- NV-EmbedQA-E5-v5:针对文本问答检索进行了优化。
- NV-EmbedQA-Mistral7B-v2:一个多语言模型,经过微调用于文本嵌入和准确的问答。
- Snowflake-Arctic-Embed-L:一个针对文本嵌入进行了优化的模型。
- NV-RerankQA-Mistral4B-v3:针对文本重排序和精准问答进行了微调。
理解检索管道
检索管道利用嵌入模型生成文本的向量表示以进行语义编码,并将其存储在向量数据库中。当用户查询数据库时,问题被编码成一个向量,与已存储的向量进行匹配以检索相关信息。然后,重排序模型对检索到的文本片段的相关性进行评分,确保呈现最准确的信息。
嵌入模型提供速度和成本效率,而重排序模型提供更高的准确性。通过结合这些模型,企业可以在性能和成本之间取得平衡,使用嵌入模型识别相关片段,使用重排序模型优化结果。
NeMo Retriever NIMs:成本和稳定性
成本
NeMo Retriever NIMs旨在减少上市时间和运营成本。这些容器化解决方案配备了行业标准的API和Helm chart,便于轻松和大规模的模型部署。利用NVIDIA AI Enterprise软件套件,NIMs最大化模型推理效率,从而降低部署成本。
稳定性
NIMs是NVIDIA AI Enterprise许可证的一部分,保证API稳定性,安全补丁,质量保证和支持,为AI驱动企业从原型到生产提供顺利过渡。
选择适合您的管道的NIMs
在设计检索管道时,开发人员需要平衡准确性、延迟、数据摄取吞吐量和生产吞吐量。NVIDIA提供了选择适当NIMs的指南基于这些因素:
- 最大化吞吐量和最小化延迟:使用NV-EmbedQA-E5-v5进行优化的轻量级嵌入模型推理。
- 针对低容量、低速率数据库进行优化:使用NV-EmbedQA-Mistral7B-v2用于摄取和生产,以平衡吞吐量和准确性与低延迟。
- 针对高容量、高速率数据进行优化:结合NV-EmbedQA-E5-v5进行文档摄取,与NV-RerankQA-Mistral4B-v3进行重排序,以提高检索准确性。
性能基准如NQ, HotpotQA, FiQA和TechQA表明,NeMo Retriever NIMs在嵌入和重排序性能上显著提升,使其适用于各种企业检索用例。
开始使用
开发人员可以在API目录中探索NVIDIA NeMo Retriever NIMs,并在GitHub上访问NVIDIA的生成性AI示例。NVIDIA还提供实验室,通过NVIDIA LaunchPad试用带有RAG工作流的AI聊天机器人,允许定制和部署NIMs在各种数据环境中。
Read More
NVIDIA AI Foundry Introduces Custom Llama 3.1 Generative AI Models for Enterprises
Jul 23, 2024 1 Min Read
Llama 3.1 Now Optimized for AMD Platforms from Data Center to AI PCs
Jul 23, 2024 1 Min Read
Pantera Capital Highlights Political Shift Towards Blockchain
Jul 23, 2024 1 Min Read
Arkham Intelligence Identifies Onchain Locations for All ETH ETFs
Jul 23, 2024 1 Min Read
Arcade Enhances Interactive Demos with ElevenLabs’ AI Voice Technology
Jul 23, 2024 1 Min Read