大模型监管 AI快讯列表 | Blockchain.News
AI 快讯列表

AI 快讯列表关于 大模型监管

时间 详情
2026-01-19
21:04
Anthropic推出激活上限技术 应对AI模型角色越狱攻击

据Anthropic(@AnthropicAI)消息,角色越狱攻击通过引导AI模型扮演有害角色,容易导致不安全内容输出。Anthropic开发的“激活上限”技术,通过在'助手轴'上限制模型激活,有效减少有害回复,同时保持模型核心能力。这项创新为企业级大模型安全落地提供了可行解决方案,特别适用于金融、医疗等高度监管行业。来源:Anthropic(@AnthropicAI)推特,2026年1月19日。