AI对齐性 AI快讯列表 | Blockchain.News
AI 快讯列表

AI 快讯列表关于 AI对齐性

时间 详情
2026-01-19
21:04
Anthropic发布Assistant Axis研究:提升AI助手对齐与可解释性的新方法

根据@AnthropicAI发布的信息,由@t1ngyu3主导、@Jack_W_Lindsey监督的团队通过MATS与Anthropic Fellows项目,提出了“Assistant Axis”新方法,有效提升AI助手的对齐性和可解释性(来源:arxiv.org/abs/2601.10387)。该研究提出了具体的分析工具,用于理解AI助手的行为和决策过程,为企业开发更可信、透明的AI助手奠定基础。这一进展有助于企业在合规与监管要求严格的行业中推广AI助手,创造新的商业机会(来源:anthropic.com/research/assistant-axis)。

2025-12-18
23:19
OpenAI发布链式思维可监控性评估框架,提升AI透明度与安全性

根据OpenAI(@OpenAI)官方消息,OpenAI推出了一套用于评估AI模型链式思维(CoT)可监控性的框架与评测套件,涵盖13项评估指标和24种环境。该工具能够精准衡量模型在推理过程中是否有效表达其内部思维。这一进展被视为提升AI安全性与对齐性的关键趋势,尤其有助于金融、医疗等对透明度要求极高的行业,助力企业部署更可信赖、可解释的AI系统(来源:openai.com/index/evaluating-chain-of-thought-monitorability;x.com/OpenAI/status/2001791131353542788)。