AI模型安全 AI快讯列表 | Blockchain.News
AI 快讯列表

AI 快讯列表关于 AI模型安全

时间 详情
2026-01-19
21:04
Anthropic推出激活上限技术 应对AI模型角色越狱攻击

据Anthropic(@AnthropicAI)消息,角色越狱攻击通过引导AI模型扮演有害角色,容易导致不安全内容输出。Anthropic开发的“激活上限”技术,通过在'助手轴'上限制模型激活,有效减少有害回复,同时保持模型核心能力。这项创新为企业级大模型安全落地提供了可行解决方案,特别适用于金融、医疗等高度监管行业。来源:Anthropic(@AnthropicAI)推特,2026年1月19日。

2026-01-16
08:30
DeepMind多层宪法式提示:自纠原则提升AI模型对齐与安全性

根据@godofprompt在推特上的分析,DeepMind采用多层宪法式提示,通过让AI模型依次自检和自纠多项原则,实现更高水平的结果对齐和安全性。与公开文档建议的“清晰具体”不同,DeepMind的内部方法要求模型首先验证是否符合某一原则,发现违背则修正,然后继续检查下一原则,直至完全符合。这种流程促使AI系统不仅关注任务完成,更深入思考约束条件,有效提升了AI在实际场景中的可靠性和商业应用价值(来源:@godofprompt,2026年1月16日)。

2025-12-18
18:42
AI模型助力网络安全:研究员利用AI发现React源码泄露漏洞

根据Sam Altman(@sama)的消息,一位安全研究员利用上一代AI模型发现并公开了React中的一个严重漏洞,该漏洞可能导致源码泄露。这一案例显示,AI模型在网络安全领域的重要性日益提升,能够更高效地检测和披露软件漏洞。随着AI技术不断进步,其在实际安全防护中的作用逐渐显现,为企业带来更主动的软件安全防护机会,有效降低安全风险(来源:Sam Altman,Twitter,2025年12月18日)。

2025-12-09
19:47
SGTM选择性梯度屏蔽技术提升AI模型安全性,适用于高风险场景

根据Anthropic(@AnthropicAI)消息,SGTM(选择性梯度屏蔽)技术在预训练阶段将AI模型权重划分为“保留”与“遗忘”两部分,将敏感或高风险知识引导至“遗忘”子集。部署前可移除该子集,有效降低AI模型在高风险场景中的敏感信息泄露风险。该方法为金融、医疗等对合规与安全要求高的行业提供了可控、安全的AI部署方案。来源:alignment.anthropic.com/2025/selective-gradient-masking/

2025-11-21
00:58
AI生成提示工程:NanoBanana在社交媒体展示详细越狱提示视觉化案例

据@NanoBanana消息,近期社交媒体上出现了一幅AI生成的图片,内容为用半褪色马克笔写在白板上的详细越狱提示,以及高度还原的Sam Altman形象。这一趋势显示出AI提示工程及其可视化能力的不断提升,为企业和开发者在沟通复杂越狱技术时提供了创新方式。随着视觉化提示的流行,AI行业公司正利用这些详细视觉化内容进行生成模型训练、测试与优化,加快迭代和提升模型安全性(来源:@NanoBanana,@godofprompt,2025年11月21日)。