Anthropic 在 AI 模型 Claude 中评估政治中立性

realtime news Nov 14, 2025 03:46 UTC 19:46

1 Min Read

Anthropic 是一家领先的 AI 安全和研究公司，他们引入了一种新颖的方法来评估 AI 模型的政治公平性。这一举措旨在确保 AI 系统，如他们的 Claude 模型，在参与政治讨论时保持中立和公正，正如 Anthropic 所述。

政治中立的重要性

追求 AI 的政治中立性对于促进无偏倚和均衡的讨论至关重要。偏向特定观点的 AI 模型可能会削弱用户形成独立判断的能力。通过与多样化的政治观点平等互动，AI 模型可以提高其可信度和可靠性。

Anthropic 的评估方法涉及“成对提示”技术，测试 AI 对政治敏感话题的回应，从相对立的观点出发。研究显示，与其他模型相比，包括 GPT-5 和 Llama 4，Claude Sonnet 4.5 展现了更优越的公平性。评估考量了如公平性、对立观点的认可和拒绝率等因素。

Anthropic 使用强化学习在 Claude 中灌输促进公平和均衡响应的特性。这些特性引导 Claude 避免可能影响政治观点的言辞或促进分裂。AI 被鼓励客观讨论政治话题，尊重多种观点而不采取党派立场。

在比较分析中，Claude Sonnet 4.5 和 Claude Opus 4.1 在公平性上得分很高。Gemini 2.5 Pro 和 Grok 4 也表现良好，而 GPT-5 和 Llama 4 显示出较低的中立性。研究结果强调了系统提示和配置对 AI 行为的影响的重要性。

Anthropic 正在开源他们的评估方法以促进 AI 行业的透明性和协作。通过分享他们的方法，他们旨在建立一个政治偏见的标准衡量，惠及全球开发者和用户。