初创公司推出RAG 2.0，革新企业的检索增强生成

realtime news Aug 30, 2024 16:56 UTC 08:56

1 Min Read

位于硅谷的初创公司Contextual AI推出了一款名为RAG 2.0的革命性平台，承诺将为企业革新检索增强生成（RAG）。根据NVIDIA博客，RAG 2.0在参数准确性和性能方面比竞争对手提升了约10倍。

背景和发展

Contextual AI的首席执行官Douwe Kiela在大语言模型（LLM）领域一直是一个有影响力的人物。受到Google和OpenAI开创性论文的启发，Kiela和他的团队早在2020年就认识到LLM在处理实时数据方面的局限性。这一认识促使他们开发了第一个RAG架构。

RAG旨在不断更新基础模型以获取新的、相关的信息。这种方法解决了LLM中固有的数据新鲜度问题，使其在企业应用中更加有用。Kiela的团队认识到，如果没有高效、经济的实时数据访问，即使是最复杂的LLM也无法为企业提供价值。

Contextual AI的新产品RAG 2.0在原有架构的基础上提升了性能和准确性。该平台将实时数据检索与LLM集成，使70亿参数模型在仅设计为7亿参数的基础设施上运行，而不会影响准确性。这种优化为需要较小、更高效计算资源的边缘应用场景带来了新的可能。

“当ChatGPT发布时，它暴露了现有LLM的局限性，”Kiela解释道。“我们知道RAG是解决这些问题的方案，而且我们有信心改进最初的设计。”

RAG 2.0的一个关键创新是其检索架构与LLM的紧密集成。检索器处理用户查询，识别相关的数据源，并将这些信息反馈给LLM，后者随后生成响应。这种集成的方法确保了更高的准确性和响应质量，减少了“幻觉”数据的可能性。

Contextual AI通过精炼其检索器的反向传播，在检索器和生成器组件之间对齐，使得整体同步调整，从而显著提高了性能和准确性。

RAG 2.0被设计为LLM不可知论者，可以与各种开源模型兼容，如Mistral和Llama。该平台利用NVIDIA的Megatron LM和Tensor Core GPU来优化其检索器。Contextual AI采用“检索器混合”方法处理各种格式的数据，如文本、视频和PDF。

这种混合方法涉及部署不同类型的RAG和一个神经重排算法，优先考虑最相关的信息。此方法确保了LLM获取最佳数据以生成准确的响应。

“我们的混合检索策略通过利用不同RAG类型的优势最大化性能，”Kiela说。“这种灵活性允许我们为特定的用例和数据格式定制解决方案。”

RAG 2.0的优化架构降低了延迟并减少了计算需求，适用于从金融科技、制造业到医疗设备和机器人等广泛的行业。该平台可以在云端、本地或完全离线的环境中部署，为企业提供多样化的解决方案。

“我们专注于解决最具挑战性的用例，”Kiela补充说。“我们的目标是增强高价值、知识密集型角色，帮助公司节省成本并提高生产力。”