NEW
OpenEvals简化开发人员的LLM评估过程 - Blockchain.News

OpenEvals简化开发人员的LLM评估过程

realtime news Feb 26, 2025 12:39

LangChain推出了OpenEvals和AgentEvals,以简化大型语言模型的评估过程,为开发人员提供预构建的工具和框架。

OpenEvals简化开发人员的LLM评估过程

作为人工智能领域的知名企业,LangChain推出了两款新包:OpenEvals和AgentEvals,旨在简化大型语言模型(LLM)的评估过程。据LangChain称,这些包为开发人员提供了一个强大的框架和一套评估工具,以简化对LLM驱动应用程序和代理的评估。

理解评估的重要性

评估,通常称为evals,在确定LLM输出的质量中至关重要。评估涉及两个主要组成部分:被评估的数据和用于评估的指标。数据的质量极大地影响评估在反映真实世界应用中的能力。LangChain强调策划一个高质量数据集以适应特定使用案例的重要性。

评估的指标通常根据应用程序的目标进行定制。为了解决常见的评估需求,LangChain开发了OpenEvals和AgentEvals,并分享了突出流行评估趋势和最佳实践的预构建解决方案。

常见的评估类型和最佳实践

OpenEvals和AgentEvals专注于评估的两种主要方法:

  1. 可定制的评估器:LLM-as-a-judge评估广泛适用,允许开发人员根据特定需求调整预构建示例。
  2. 特定使用案例评估器:这些是为特定应用设计的,例如从文档中提取结构化内容或管理工具调用和代理轨迹。LangChain计划扩展这些库以包括更多目标明确的评估技术。

LLM-as-a-Judge评估

LLM-as-a-judge评估由于其在评估自然语言输出中的实用性而普遍使用。这些评估可以是无参考的,允许在无需真实答案的情况下进行客观评估。OpenEvals通过提供可定制的起始提示、结合少量示例和生成透明性推理评论来支持这一过程。

结构化数据评估

对于需要结构化输出的应用程序,OpenEvals提供工具确保模型的输出符合预定义格式。这对于从文档中提取结构化信息或验证工具调用的参数等任务至关重要。OpenEvals支持精确匹配配置或LLM-as-a-judge对结构化输出进行验证。

代理评估:轨迹评估

代理评估专注于代理完成任务所采取的操作序列。这涉及评估工具选择和应用程序轨迹。AgentEvals提供了评估机制,确保代理使用正确的工具并遵循适当的顺序。

跟踪和未来发展

LangChain建议使用LangSmith跟踪随时间变化的评估。LangSmith提供用于跟踪、评估和试验的工具,支持生产级LLM应用程序的开发。像Elastic和Klarna这样的知名公司使用LangSmith评估他们的GenAI应用程序。

LangChain持续推进最佳实践的编纂,计划为常见使用案例引入更多特定的评估器。鼓励开发人员通过GitHub贡献自己的评估器或提出改进建议。

Image source: Shutterstock