AI 快讯列表关于 AI对齐审核
| 时间 | 详情 |
|---|---|
|
2026-01-23 00:08 |
Petri 2.0:Anthropic发布升级版开源AI自动对齐审核工具
据Anthropic官方推特(@AnthropicAI)消息,开源AI自动对齐审核工具Petri自发布以来已被多家研究团队和AI开发者采用。最新发布的Petri 2.0版本在防范评估感知(eval-awareness)方面进行了关键优化,并扩展了行为种子库,覆盖更广泛的AI行为类型。这一升级可帮助AI企业和研究者更高效地进行大规模安全性自动审核,及时发现AI模型不对齐风险,满足业界对高效AI安全工具日益增长的需求,助力企业负责任地部署AI系统(来源:AnthropicAI推特,2026年1月23日)。 |