AI模型安全 AI快讯列表

时间	详情
2026-01-19 21:04	Anthropic推出激活上限技术应对AI模型角色越狱攻击据Anthropic（@AnthropicAI）消息，角色越狱攻击通过引导AI模型扮演有害角色，容易导致不安全内容输出。Anthropic开发的“激活上限”技术，通过在'助手轴'上限制模型激活，有效减少有害回复，同时保持模型核心能力。这项创新为企业级大模型安全落地提供了可行解决方案，特别适用于金融、医疗等高度监管行业。来源：Anthropic（@AnthropicAI）推特，2026年1月19日。原文链接
2026-01-16 08:30	DeepMind多层宪法式提示：自纠原则提升AI模型对齐与安全性根据@godofprompt在推特上的分析，DeepMind采用多层宪法式提示，通过让AI模型依次自检和自纠多项原则，实现更高水平的结果对齐和安全性。与公开文档建议的“清晰具体”不同，DeepMind的内部方法要求模型首先验证是否符合某一原则，发现违背则修正，然后继续检查下一原则，直至完全符合。这种流程促使AI系统不仅关注任务完成，更深入思考约束条件，有效提升了AI在实际场景中的可靠性和商业应用价值（来源：@godofprompt，2026年1月16日）。原文链接
2025-12-18 18:42	AI模型助力网络安全：研究员利用AI发现React源码泄露漏洞根据Sam Altman（@sama）的消息，一位安全研究员利用上一代AI模型发现并公开了React中的一个严重漏洞，该漏洞可能导致源码泄露。这一案例显示，AI模型在网络安全领域的重要性日益提升，能够更高效地检测和披露软件漏洞。随着AI技术不断进步，其在实际安全防护中的作用逐渐显现，为企业带来更主动的软件安全防护机会，有效降低安全风险（来源：Sam Altman，Twitter，2025年12月18日）。原文链接
2025-12-09 19:47	SGTM选择性梯度屏蔽技术提升AI模型安全性，适用于高风险场景根据Anthropic（@AnthropicAI）消息，SGTM（选择性梯度屏蔽）技术在预训练阶段将AI模型权重划分为“保留”与“遗忘”两部分，将敏感或高风险知识引导至“遗忘”子集。部署前可移除该子集，有效降低AI模型在高风险场景中的敏感信息泄露风险。该方法为金融、医疗等对合规与安全要求高的行业提供了可控、安全的AI部署方案。来源：alignment.anthropic.com/2025/selective-gradient-masking/ 原文链接
2025-11-21 00:58	AI生成提示工程：NanoBanana在社交媒体展示详细越狱提示视觉化案例据@NanoBanana消息，近期社交媒体上出现了一幅AI生成的图片，内容为用半褪色马克笔写在白板上的详细越狱提示，以及高度还原的Sam Altman形象。这一趋势显示出AI提示工程及其可视化能力的不断提升，为企业和开发者在沟通复杂越狱技术时提供了创新方式。随着视觉化提示的流行，AI行业公司正利用这些详细视觉化内容进行生成模型训练、测试与优化，加快迭代和提升模型安全性（来源：@NanoBanana，@godofprompt，2025年11月21日）。原文链接

2026-01-19
21:04

据Anthropic（@AnthropicAI）消息，角色越狱攻击通过引导AI模型扮演有害角色，容易导致不安全内容输出。Anthropic开发的“激活上限”技术，通过在'助手轴'上限制模型激活，有效减少有害回复，同时保持模型核心能力。这项创新为企业级大模型安全落地提供了可行解决方案，特别适用于金融、医疗等高度监管行业。来源：Anthropic（@AnthropicAI）推特，2026年1月19日。

原文链接

2026-01-16
08:30

DeepMind多层宪法式提示：自纠原则提升AI模型对齐与安全性

根据@godofprompt在推特上的分析，DeepMind采用多层宪法式提示，通过让AI模型依次自检和自纠多项原则，实现更高水平的结果对齐和安全性。与公开文档建议的“清晰具体”不同，DeepMind的内部方法要求模型首先验证是否符合某一原则，发现违背则修正，然后继续检查下一原则，直至完全符合。这种流程促使AI系统不仅关注任务完成，更深入思考约束条件，有效提升了AI在实际场景中的可靠性和商业应用价值（来源：@godofprompt，2026年1月16日）。

原文链接

2025-12-18
18:42

AI模型助力网络安全：研究员利用AI发现React源码泄露漏洞

根据Sam Altman（@sama）的消息，一位安全研究员利用上一代AI模型发现并公开了React中的一个严重漏洞，该漏洞可能导致源码泄露。这一案例显示，AI模型在网络安全领域的重要性日益提升，能够更高效地检测和披露软件漏洞。随着AI技术不断进步，其在实际安全防护中的作用逐渐显现，为企业带来更主动的软件安全防护机会，有效降低安全风险（来源：Sam Altman，Twitter，2025年12月18日）。

原文链接

2025-12-09
19:47

SGTM选择性梯度屏蔽技术提升AI模型安全性，适用于高风险场景

根据Anthropic（@AnthropicAI）消息，SGTM（选择性梯度屏蔽）技术在预训练阶段将AI模型权重划分为“保留”与“遗忘”两部分，将敏感或高风险知识引导至“遗忘”子集。部署前可移除该子集，有效降低AI模型在高风险场景中的敏感信息泄露风险。该方法为金融、医疗等对合规与安全要求高的行业提供了可控、安全的AI部署方案。来源：alignment.anthropic.com/2025/selective-gradient-masking/

原文链接

2025-11-21
00:58

AI生成提示工程：NanoBanana在社交媒体展示详细越狱提示视觉化案例

据@NanoBanana消息，近期社交媒体上出现了一幅AI生成的图片，内容为用半褪色马克笔写在白板上的详细越狱提示，以及高度还原的Sam Altman形象。这一趋势显示出AI提示工程及其可视化能力的不断提升，为企业和开发者在沟通复杂越狱技术时提供了创新方式。随着视觉化提示的流行，AI行业公司正利用这些详细视觉化内容进行生成模型训练、测试与优化，加快迭代和提升模型安全性（来源：@NanoBanana，@godofprompt，2025年11月21日）。

原文链接

AI 快讯列表关于 AI模型安全