NVIDIA推出NeMo Retriever以增强RAG管道性能

realtime news Jul 24, 2024 05:37 UTC 21:37

1 Min Read

企业正越来越多地寻求利用其大量数据储备来提高运营效率、降低成本并提升生产力。NVIDIA的最新产品NeMo Retriever旨在通过使开发人员能够构建和部署先进的检索增强生成（RAG）管道来实现这一目标。根据NVIDIA技术博客，NeMo Retriever系列推出了四个新的基于社区的NeMo Retriever NIMs，专为文本嵌入和重排序而设计。

增强文本检索的新模型

NVIDIA宣布发布三个NeMo Retriever嵌入NIM和一个NeMo Retriever重排序NIM。这些模型是：

NV-EmbedQA-E5-v5：针对文本问答检索进行了优化。
NV-EmbedQA-Mistral7B-v2：一个多语言模型，经过微调用于文本嵌入和准确的问答。
Snowflake-Arctic-Embed-L：一个针对文本嵌入进行了优化的模型。
NV-RerankQA-Mistral4B-v3：针对文本重排序和精准问答进行了微调。

理解检索管道

检索管道利用嵌入模型生成文本的向量表示以进行语义编码，并将其存储在向量数据库中。当用户查询数据库时，问题被编码成一个向量，与已存储的向量进行匹配以检索相关信息。然后，重排序模型对检索到的文本片段的相关性进行评分，确保呈现最准确的信息。

嵌入模型提供速度和成本效率，而重排序模型提供更高的准确性。通过结合这些模型，企业可以在性能和成本之间取得平衡，使用嵌入模型识别相关片段，使用重排序模型优化结果。

NeMo Retriever NIMs：成本和稳定性

成本

NeMo Retriever NIMs旨在减少上市时间和运营成本。这些容器化解决方案配备了行业标准的API和Helm chart，便于轻松和大规模的模型部署。利用NVIDIA AI Enterprise软件套件，NIMs最大化模型推理效率，从而降低部署成本。

稳定性

NIMs是NVIDIA AI Enterprise许可证的一部分，保证API稳定性，安全补丁，质量保证和支持，为AI驱动企业从原型到生产提供顺利过渡。

选择适合您的管道的NIMs

在设计检索管道时，开发人员需要平衡准确性、延迟、数据摄取吞吐量和生产吞吐量。NVIDIA提供了选择适当NIMs的指南基于这些因素：

最大化吞吐量和最小化延迟：使用NV-EmbedQA-E5-v5进行优化的轻量级嵌入模型推理。
针对低容量、低速率数据库进行优化：使用NV-EmbedQA-Mistral7B-v2用于摄取和生产，以平衡吞吐量和准确性与低延迟。
针对高容量、高速率数据进行优化：结合NV-EmbedQA-E5-v5进行文档摄取，与NV-RerankQA-Mistral4B-v3进行重排序，以提高检索准确性。

性能基准如NQ, HotpotQA, FiQA和TechQA表明，NeMo Retriever NIMs在嵌入和重排序性能上显著提升，使其适用于各种企业检索用例。

开始使用

开发人员可以在API目录中探索NVIDIA NeMo Retriever NIMs，并在GitHub上访问NVIDIA的生成性AI示例。NVIDIA还提供实验室，通过NVIDIA LaunchPad试用带有RAG工作流的AI聊天机器人，允许定制和部署NIMs在各种数据环境中。

News ▸

NVIDIA推出NeMo Retriever以增强RAG管道性能

增强文本检索的新模型

理解检索管道

NeMo Retriever NIMs：成本和稳定性

成本

稳定性

选择适合您的管道的NIMs

开始使用

Read More

NVIDIA AI Foundry Introduces Custom Llama 3.1 Generative AI Models for Enterprises

Llama 3.1 Now Optimized for AMD Platforms from Data Center to AI PCs

Pantera Capital Highlights Political Shift Towards Blockchain

Arkham Intelligence Identifies Onchain Locations for All ETH ETFs

Arcade Enhances Interactive Demos with ElevenLabs’ AI Voice Technology