GitHub: 利用 RAG 解锁非结构化数据中的洞察

GitHub: 利用 RAG 解锁非结构化数据中的洞察 - Blockchain.News

非结构化数据包含有关代码库、组织最佳实践以及客户反馈的有价值信息。根据 The GitHub Blog，检索增强生成 (RAG) 可以帮助开发人员有效利用这些数据。

开发人员和 IT 领导者需要数据和洞察来做出明智的决策。这些数据以两种形式存在：结构化数据和非结构化数据。虽然结构化数据遵循特定格式，但非结构化数据——如电子邮件、音频文件、代码注释和提交消息——则不遵循。这使得组织和解释它们变得困难，可能导致团队错过有价值的洞察。

软件开发中的非结构化数据

在软件开发中，非结构化数据包括源代码及其周围的上下文。GitHub 上的示例包括 README 文件、代码文件、包文档、代码注释、wiki 页面、提交消息、问题和拉取请求描述、讨论和评论。

这些来源包含有价值的信息但缺乏预定义的结构，使其难以分析。GitHub 数据科学家 Pam Moriarty 和 Jessica Guo 强调了非结构化数据在软件开发中的独特价值，以及 RAG 如何增强其效用。

非结构化数据具有价值但由于缺乏固有的组织性而难以分析。大型语言模型 (LLM) 可以帮助识别非结构化文本数据中的复杂模式，提取可能否则会被隐藏的洞察。

Guo 解释说，LLM 擅长识别模式、情感、实体和文本数据中的主题。RAG 借助 LLM 可以帮助揭示组织最佳实践，加速对代码库的理解，并通过揭示用户痛点改善产品决策。

RAG 是一种定制 LLM 的方法，通过添加来自额外数据源的上下文来增强其生成相关输出的能力。这些来源可以包括向量数据库、传统数据库或搜索引擎。

例如，GitHub Copilot Enterprise 使用 RAG 向开发人员提供关于特定代码库问题的自然语言回答。此工具可以使用提交、问题和讨论中的内容生成具有上下文相关性的响应。

RAG 可以显著提高开发人员的生产力，使他们能够更快地生产出高质量且一致的代码，保存和共享信息，并更好地理解现有代码库。

随着开发人员继续使用 GitHub Copilot 等 AI 工具，非结构化数据的量会增加。利用 RAG 可以帮助组织揭示并利用这些数据，从而改善开发流程和产品决策。

Image source: Shutterstock