NVIDIA发布NeMo Retriever微服务以提升AI准确性和吞吐量

realtime news  Jul 24, 2024 03:49  UTC 19:49

1 Min Read

NVIDIA宣布推出其新的NeMo Retriever NIM(NeMo推理微服务),旨在显著提升大型语言模型(LLM)在AI应用中的准确性和吞吐量。据NVIDIA博客,这些微服务旨在帮助开发者更高效地访问和利用专有数据,从而为AI驱动的任务生成更准确和相关的响应。

通过NeMo Retriever提升AI准确性

NeMo Retriever NIM微服务已准备好投入生产,设计用于检索增强生成(RAG)。这一新工具套件允许企业在最少干预的情况下扩展AI工作流程,确保在各种应用中的高准确性。微服务与Cohesity、DataStax、NetApp和Snowflake等平台无缝集成。

这些微服务对于开发AI代理、客户服务聊天机器人、安全漏洞分析以及从复杂供应链数据中提取洞见的开发人员特别有利。通过实现高性能、企业级推理,NeMo Retriever NIM微服务可以以更高的数据准确性和吞吐量推动AI应用的发展。

嵌入和重排序模型

NeMo Retriever NIM微服务由两种主要模型类型组成:嵌入和重排序。嵌入模型将多样化数据转化为数值向量,捕捉其意义和细微差别,重排序模型则根据数据与给定查询的相关性进行评分。通过结合这两种模型,开发人员可以确保其AI应用获得最准确和相关的结果。

例如,NV-EmbedQA-E5-v5和NV-EmbedQA-Mistral7B-v2嵌入模型分别优化用于文本问答检索和多语言嵌入。重排序模型,如NV-RerankQA-Mistral4B-v3,提供高准确性的文本重排序功能。这些模型现已普遍可用,并可通过NVIDIA API目录访问。

主要用例

NeMo Retriever NIM微服务提供广泛的应用,从构建智能聊天机器人和分析安全漏洞到从供应链信息中提取洞见以及改善零售购物顾问功能。这些微服务还被各种合作伙伴集成,以提升其AI模型的准确性和吞吐量。

例如,DataStax已将NeMo Retriever嵌入NIM微服务整合到其Astra DB和超融合平台中,而Cohesity正在将这些微服务与其AI产品Cohesity Gaia集成。NetApp正与NVIDIA合作,将NeMo Retriever微服务连接到其智能数据基础设施中,实现无缝访问商业洞见而不影响数据安全。

与其他NIM微服务的集成

NeMo Retriever NIM微服务可以与其他NVIDIA微服务一起使用,如增强语音AI应用的NVIDIA Riva NIM。即将推出的模型,如用于文本转语音应用的FastPitch和HiFi-GAN,以及用于多语言神经机器翻译的Megatron,将很快作为Riva NIM微服务提供。

这些微服务可以部署在各种环境中,包括AWS、谷歌云、微软Azure和甲骨文云基础设施等主要供应商的云实例中。它们还可以在包括思科、戴尔科技、惠普企业、联想和超微等服务器制造合作伙伴的NVIDIA认证系统上运行。

NVIDIA开发者计划的成员将很快免费获取NIM进行研究、开发和测试在其首选的基础设施上。企业可以通过NVIDIA AI Enterprise软件平台在生产中部署这些微服务。



Read More