LangChain 推出了 SCIPE,这是一款尖端工具,旨在解决由大型语言模型(LLM)驱动的应用程序构建中的挑战。据 LangChain 报道,该工具由来自伯克利的研究人员 Ankush Garg 和 Shreya Shankar 开发,专注于通过识别表现不佳的节点来评估和提高 LLM 链的性能。
解决 LLM 链复杂性
由 LLM 驱动的应用程序通常涉及复杂的链式结构,每个查询可能需要多次 LLM 调用,因而很难确保最佳性能。SCIPE 旨在简化这一过程,通过分析链中每个节点的输入和输出,识别出通过提高准确性可以显著增强整体输出的节点。
技术见解
SCIPE 不需要标记数据或真实示例,这使得它可用于广泛的应用。它评估 LLM 链中的节点,以确定哪些失败对下游节点的影响最大。该工具区分独立失败(源于节点本身)和依赖失败(源于上游依赖)。一个 LLM 充当评判者,评估每个节点的性能,提供通过/失败分数,帮助计算失败概率。
操作和前提条件
为了实现 SCIPE,开发者需要一个来自 LangGraph 编译的图,结构化格式的应用响应,以及特定的配置。该工具分析失败率,遍历图表以识别失败的根本原因。这个过程帮助开发者定位问题节点并制定改进策略,从而最终提升应用程序的可靠性。
示例用法
在实践中,SCIPE 使用一个编译的 StateGraph,将其转换为轻量级格式。开发者定义配置,并使用 LLMEvaluator 来管理评估和识别问题节点。结果提供了全面的分析,包括失败概率和调试路径,从而促进有针对性的改进。
结论
SCIPE 代表了 AI 开发领域的重大进步,通过识别和解决最具影响的问题节点,提供了一种系统化的方法来改善 LLM 链。这一创新增强了 AI 应用程序的可靠性和性能,实现了开发者和终端用户的双重收益。
Image source: Shutterstock