AI对齐性 AI快讯列表

AI对齐性 AI快讯列表 | Blockchain.News

AI 快讯列表

AI 快讯列表关于 AI对齐性

时间	详情
2026-01-19 21:04	Anthropic发布Assistant Axis研究：提升AI助手对齐与可解释性的新方法根据@AnthropicAI发布的信息，由@t1ngyu3主导、@Jack_W_Lindsey监督的团队通过MATS与Anthropic Fellows项目，提出了“Assistant Axis”新方法，有效提升AI助手的对齐性和可解释性（来源：arxiv.org/abs/2601.10387）。该研究提出了具体的分析工具，用于理解AI助手的行为和决策过程，为企业开发更可信、透明的AI助手奠定基础。这一进展有助于企业在合规与监管要求严格的行业中推广AI助手，创造新的商业机会（来源：anthropic.com/research/assistant-axis）。原文链接
2025-12-18 23:19	OpenAI发布链式思维可监控性评估框架，提升AI透明度与安全性根据OpenAI（@OpenAI）官方消息，OpenAI推出了一套用于评估AI模型链式思维（CoT）可监控性的框架与评测套件，涵盖13项评估指标和24种环境。该工具能够精准衡量模型在推理过程中是否有效表达其内部思维。这一进展被视为提升AI安全性与对齐性的关键趋势，尤其有助于金融、医疗等对透明度要求极高的行业，助力企业部署更可信赖、可解释的AI系统（来源：openai.com/index/evaluating-chain-of-thought-monitorability；x.com/OpenAI/status/2001791131353542788）。原文链接

时间

详情

2026-01-19
21:04

Anthropic发布Assistant Axis研究：提升AI助手对齐与可解释性的新方法

根据@AnthropicAI发布的信息，由@t1ngyu3主导、@Jack_W_Lindsey监督的团队通过MATS与Anthropic Fellows项目，提出了“Assistant Axis”新方法，有效提升AI助手的对齐性和可解释性（来源：arxiv.org/abs/2601.10387）。该研究提出了具体的分析工具，用于理解AI助手的行为和决策过程，为企业开发更可信、透明的AI助手奠定基础。这一进展有助于企业在合规与监管要求严格的行业中推广AI助手，创造新的商业机会（来源：anthropic.com/research/assistant-axis）。

原文链接

2025-12-18
23:19

OpenAI发布链式思维可监控性评估框架，提升AI透明度与安全性

根据OpenAI（@OpenAI）官方消息，OpenAI推出了一套用于评估AI模型链式思维（CoT）可监控性的框架与评测套件，涵盖13项评估指标和24种环境。该工具能够精准衡量模型在推理过程中是否有效表达其内部思维。这一进展被视为提升AI安全性与对齐性的关键趋势，尤其有助于金融、医疗等对透明度要求极高的行业，助力企业部署更可信赖、可解释的AI系统（来源：openai.com/index/evaluating-chain-of-thought-monitorability；x.com/OpenAI/status/2001791131353542788）。

原文链接