AI 快讯列表关于 大模型监管
| 时间 | 详情 |
|---|---|
|
2026-01-19 21:04 |
Anthropic推出激活上限技术 应对AI模型角色越狱攻击
据Anthropic(@AnthropicAI)消息,角色越狱攻击通过引导AI模型扮演有害角色,容易导致不安全内容输出。Anthropic开发的“激活上限”技术,通过在'助手轴'上限制模型激活,有效减少有害回复,同时保持模型核心能力。这项创新为企业级大模型安全落地提供了可行解决方案,特别适用于金融、医疗等高度监管行业。来源:Anthropic(@AnthropicAI)推特,2026年1月19日。 |