Anthropic 的 Claude 旨在实现 AI 响应中的政治中立

Anthropic 的 Claude 旨在实现 AI 响应中的政治中立 - Blockchain.News

Anthropic 是一家专注于 AI 安全和研究的公司，已公布其在 AI 模型 Claude 中确保政治公正性的努力。根据 Anthropic 的说法，该公司旨在训练 Claude 同等深度地对待对立的政治观点，避免偏向任何意识形态立场。

评估政治公正性

Anthropic 开发了一种自动化评估方法来测试 AI 响应中的政治公正性。该方法应用于包括 Claude Sonnet 4.5 在内的六个模型，该公司声称其在中立性方面优于 GPT-5 和 Llama 4，与 Grok 4 和 Gemini 2.5 Pro 相当。评估涉及来自不同政治立场的数千个提示。

中立 AI 的重要性

在政治背景下，用户寻求诚实且富有成效的讨论。不公平地偏向某些观点的 AI 模型未能尊重用户的独立性，而这种独立性对于帮助用户形成自己的判断至关重要。Anthropic 的目标是让 Claude 提供平衡的、事实的信息，不带任何未经请求的政治观点。

中立训练

Claude 的训练包括强化学习，以奖励符合预定特征的响应，这些特征促进公正性。这些特征鼓励 Claude 避免可能不当影响政治观点的言辞，并客观地讨论话题。

对比分析

Anthropic 使用“配对提示”方法将 Claude 与其他 AI 模型进行比较，以评估偏见。此方法涉及使用来自对立政治视角的提示测试模型，以确保其公正性。Claude Sonnet 4.5 在公正性上得分为 95%，显示出与其他领先模型如 Grok 4 和 Gemini 2.5 Pro 类似的中立性水平。

结论和未来方向

虽然 Anthropic 的评估重点是公正性、对立观点和拒绝，但该公司承认其研究的局限性以及需要进一步探索政治偏见的其他维度。开源评估旨在推动行业范围内的标准，以衡量 AI 中的政治偏见。

Image source: Shutterstock