越狱防护 AI快讯列表 | Blockchain.News
AI 快讯列表

AI 快讯列表关于 越狱防护

时间 详情
2026-01-09
21:30
Anthropic AI分类器将越狱成功率降至4.4%,但增加运营成本与误拒绝率——企业AI安全新挑战

根据Anthropic (@AnthropicAI)官方推特消息,采用新一代AI分类器后,其Claude模型的越狱成功率从86%大幅降低至4.4%。然而,这种做法带来了较高的运行成本,并使得模型更倾向于拒绝正常请求。此外,Anthropic指出系统依然易受两类攻击方式影响,显示AI安全防护仍有待加强。这一结果凸显了在企业AI安全部署中,如何平衡高效防护、运营成本与用户体验的挑战与市场机会。(来源:AnthropicAI推特,2026年1月9日)

2026-01-09
21:30
Anthropic AI安全突破:1700小时红队测试未发现通用越狱方法

根据@AnthropicAI发布的信息,经过累计1700小时的红队测试,他们的新系统尚未被发现存在通用越狱方法,即没有一种攻击策略可以在多种查询场景下持续绕过安全防护。该研究已发布于arXiv(arxiv.org/abs/2601.04603),显示出Anthropic AI模型在防止提示注入和对抗性攻击方面的显著提升。对于金融、医疗和法律等行业的企业用户,这意味着AI系统的安全性和合规性大大增强,有助于降低运营风险(来源:@AnthropicAI,arxiv.org/abs/2601.04603)。