AI对齐审核 AI快讯列表 | Blockchain.News
AI 快讯列表

AI 快讯列表关于 AI对齐审核

时间 详情
2026-01-23
00:08
Petri 2.0:Anthropic发布升级版开源AI自动对齐审核工具

据Anthropic官方推特(@AnthropicAI)消息,开源AI自动对齐审核工具Petri自发布以来已被多家研究团队和AI开发者采用。最新发布的Petri 2.0版本在防范评估感知(eval-awareness)方面进行了关键优化,并扩展了行为种子库,覆盖更广泛的AI行为类型。这一升级可帮助AI企业和研究者更高效地进行大规模安全性自动审核,及时发现AI模型不对齐风险,满足业界对高效AI安全工具日益增长的需求,助力企业负责任地部署AI系统(来源:AnthropicAI推特,2026年1月23日)。