Anyscale 探索使用合成数据进行直接偏好优化

Anyscale 探索使用合成数据进行直接偏好优化 - Blockchain.News

据 Anyscale 称，直接偏好优化 (DPO) 已成为一种重要的方法，用于调优语言模型以使其输出符合人类偏好。该公司的最新博客文章提供了一个关于使用合成数据应用 DPO 的深入案例研究，特别是在摘要任务的背景下。

合成数据生成

合成数据生成已成为创建高质量数据集的有力技术。Anyscale 的方法利用 AI 模型作为数据增强器和评判者，以改进后续模型。博客详细描述了合成数据生成的完整流程，强调了 Ray Data 和 vLLM 在扩展和快速实验中的实用性。

直接偏好优化 (DPO) 提供了复杂性和有效性之间的平衡，使其成为广泛采用的偏好调优算法。Anyscale 已将 DPO 集成到其 LLM 套件中，使用户能够通过直观的 API 构建偏好调优模型。博客涵盖了 DPO 在摘要任务上的建模见解和实验。

Anyscale 使用 Ray Data 和 vLLM 进行批量推理，以大规模评估生成的摘要。评估对于确定模型质量至关重要，Anyscale 强调了与训练目标对齐的任务特定评估的重要性。博客提供了有关设置偏好函数以进行有效评估的关键细节。

博客将 DPO 与传统的监督微调 (SFT) 进行了对比。尽管 SFT 依赖于高质量的数据收集和精确模仿所需行为，偏好调优则关注一个响应是否优于另一个。该方法允许可扩展的数据生成和政策内数据收集，直接解决模型特定问题。

该案例研究将 DPO 应用于 Mistral-7B-instruct-v0.1 模型，用于摘要 CNN 文章。Anyscale 设计了一个合成摘要偏好数据集，使用合成评判者来降低成本，并确保训练和评估之间的一致性。偏好函数结合了字数最小化和问答准确性来评估摘要。

Anyscale 使用 Mistral-7B-Instruct-v0.1 模型生成政策内数据用于摘要。该过程涉及为每篇文章生成多个摘要，并使用 Llama-3-70B-Instruct 模型创建和回答关于原文的多项选择题。这种方法确保了多样化的输出和准确的评估。

Anyscale 在其 LLM 训练后服务中实现了 DPO，使用户能够配置超参数和计算资源以进行训练运行。博客提供了一个 DPO 训练配置的详细示例，强调了 β 超参数和使用 Ray 进行高效训练的重要性。

评估包括计算每个模型的胜率，将 DPO 训练的模型与原始模型和其他基线进行比较。结果表明 DPO 在平衡准确性和压缩方面具有优势，优于 SFT 和 GPT-4o 基线。

Anyscale 确定了 DPO 训练的关键见解，包括 β 和学习率这两个超参数的关键作用。博客还讨论了失败模式，如冗长的离题结尾和无意义的词语片段，强调了仔细调整和监控超参数的必要性。

博客建议使用迭代政策内训练作为提高 DPO 性能的方法。通过使用微调后的模型重新生成训练数据并应用额外的 DPO 轮次，Anyscale 实现了显著的性能提升，使 DPO 在与传统的 RLHF 方法的竞争中占据优势。

有关完整的详细案例研究和方法论，读者可以参考原始文章 Anyscale。

Image source: Shutterstock