模型审计 AI快讯列表 | Blockchain.News
AI 快讯列表

AI 快讯列表关于 模型审计

时间 详情
2026-02-28
20:38
OpenAI与国防部门达成机密环境AI部署协议:更严格护栏与行业标准化解析

据OpenAI在Twitter发布的信息,OpenAI已与国防部门就机密环境中部署先进AI系统达成协议,并请求将该框架向所有AI公司开放。根据OpenAI声明,此次部署较以往机密AI协议拥有更严格的护栏,意味着更强的访问控制、红队测试与可审计性。据OpenAI信息披露,此举为敏感政府场景提供标准化的授权、监测与应急响应路径,催生安全托管、合规工具与持续评估等供应链机会。依据OpenAI表示,市场需求将倾向可控生成模型、加固的推理端点与模型权重供应链证明,利好面向机密网络的企业级AI服务商。

2026-02-24
20:28
Anthropic发布《负责任扩展政策》3.0:最新AI安全管控与治理深度分析

据AnthropicAI在推特披露,Anthropic发布《负责任扩展政策》(RSP)3.0;据Anthropic官网文章介绍,RSP 3.0以能力分级为核心,要求在更高风险阈值前实施第三方审计、红队评估与部署暂停条件,并将事故通报与治理流程制度化;根据Anthropic的说明,新版引入能力预测、对抗性测试、强化对齐验证与安全基线,针对潜在灾难性滥用和自主性风险设定明确闸门;据Anthropic文章,企业可据此对齐合规流程与供应商评估标准,推动审计服务、评测工具与安全平台等商业机会;据Anthropic官网,RSP 3.0还细化供应商监督、数据治理与上线评审,为监管与客户提供可衡量的安全基准。

2026-02-24
13:16
没有奇点的AGI:2026最新分析与政策紧迫性、风控与企业AI战略

据@emollick在X平台发布的2026年2月24日观点,当前把人工智能叙事极化为“灾难或拯救”正在掩盖“无奇点实现AGI”的可能路径,进而导致对治理、部署与安全等关键决策的拖延。根据Ethan Mollick的帖子,这种拖延使得能力阈值设定、模型评估与企业路线图的阶段性护栏无法及时落地。该帖指出,对企业而言,当下应优先采取务实的AI风控与合规措施,例如模型审计、红队测试、事件响应预案与采购标准,以在实现短期生产力提升的同时降低监管与声誉风险。

2026-02-20
21:45
对Anthropic掌门Dario Amodei的质疑:前沿模型治理的5大商业影响与风向分析

据@timnitGebru 称,围绕Anthropic首席执行官Dario Amodei的正面叙事,与OpenAI崛起时期政界与媒体对Sam Altman的追捧如出一辙,显示硅谷CEO叙事的循环。据Timnit Gebru帖子指出,这种影响力集中可能推动政策议程朝特定厂商倾斜,影响AI安全讨论与政府、企业的采购决策。结合《纽约时报》和《经济学人》此前对OpenAI与Anthropic领导层曝光度的报道可以看出,此类话语权将重塑监管对话与市场预期。对企业而言,应超越CEO个人品牌,重点审视模型评测透明度、第三方审计与安全承诺可验证性,并通过多模型与多供应商策略降低单一厂商锁定风险,稳健布局前沿大模型落地。

2026-02-20
15:08
Averi发布独立AI审计标准:2026合规与安全评估最新分析

据DeepLearning.AI报道,AI验证与研究机构Averi正在制定独立AI系统审计标准,覆盖滥用、数据泄露与有害行为等风险评估;据DeepLearning.AI称,Averi的审计原则旨在将第三方安全评审常态化,为模型评测与事件响应提供可量化基准;据DeepLearning.AI报道,该框架聚焦上线前测试、红队对抗与上线后监测等环节,为企业提供可验证合规与可采购级保障路径。

2026-02-19
19:09
最新分析:Timnit Gebru 解读两部AI纪录片差异——伦理、问责与2026产业影响

据 @timnitGebru 推文所述,可通过其提供的链接了解两部AI纪录片的差异;依据该推文在2026年2月19日的发布信息,比较重点在于算法问责、数据劳动、监控风险与企业治理等叙事差异。根据该来源,这些差异为企业在模型上线、合规审计与声誉管理上的伦理实践提供参考,帮助制定风险控制与透明度策略。

2026-02-19
07:01
Timnit Gebru 推荐《Ghost in the Machine》:伦理AI与问责的最新分析

根据 @timnitGebru 在推特上的表述,想系统了解人工智能的人应观看纪录片《Ghost in the Machine》,凸显其对强调权力结构、数据来源、偏见审计与问责实践的教育资源偏好。依据该推文内容,此推荐反映市场对可追溯数据、算法审计与影响评估的强烈需求,为企业在模型风险管理、供应商尽调与AI治理方面带来机遇。据该帖所示,这也为合规科技、模型监控平台与AI政策培训等服务释放商业空间。

2025-10-09
16:28
英国AI安全研究:少量恶意文档可威胁任意大模型,数据投毒风险激增

据Anthropic(@AnthropicAI)与英国AI安全研究院(@AISecurityInst)、艾伦·图灵研究院(@turinginst)联合发布的新研究显示,仅需少量恶意文档即可在任何规模的大语言模型(LLM)中制造安全漏洞。研究证实,数据投毒攻击比以往认为的更为实际和易实施,这对AI开发企业敲响警钟,强调训练数据管理和安全防护的重要性,同时为AI安全解决方案和模型审计服务创造了新的市场机会。(来源:Anthropic, https://twitter.com/AnthropicAI/status/1976323781938626905)

2025-07-31
16:42
Chris Olah提出AI归因图结合注意力机制的新进展,推动模型可解释性创新

根据Chris Olah(@ch402)的最新研究,将注意力机制融入AI归因图方法,为神经网络可解释性带来重要突破(来源:twitter.com/ch402/status/1950960341476934101)。虽然这还不是对全局注意力机制的全面解答,但已经为理解AI模型决策过程提供了具体进展。对AI行业而言,这将促进大模型透明度提升,为可解释性AI、模型审计和合规领域带来新的商业机会。

2025-05-29
16:00
Anthropic开源大型语言模型可解释性归因图工具,助力AI透明化与行业应用

据@AnthropicAI消息,其可解释性团队已正式开源用于生成大型语言模型归因图的方法。该工具让AI研究人员能够直观追踪模型推理过程,提升模型透明度和可信度。此次开源为AI模型的基准测试、调试和优化提供了实用工具,也为AI合规和审计等商业应用创造新机遇(来源:@AnthropicAI,2025年5月29日)。