安全 AI快讯列表

时间	详情
2026-03-20 20:52	Waymo安全里程碑：1.7亿+英里数据证实严重伤害事故率比人类低13倍——2026深度分析据Sundar Pichai称，Waymo最新安全数据表明，截至2025年12月，Waymo自动驾驶在累计超过1.7亿英里运营里程中，其严重伤害事故发生率比同城人类驾驶低13倍；据Waymo《Safety Impact》报告披露，该结论基于与同一城市人类基线碰撞率的对比，采用警方报告等权威数据源，显示机器人出租车在降低重伤风险方面具显著效果。依据Waymo报告，这一经验证据为更大规模商业化铺路，包括与保险机构的费率优化合作、与城市交通系统的接入，以及提高乘客信任与监管审批效率，从而改善单位经济性与市场扩张速度。原文链接
2026-02-25 21:06	Anthropic发布Claude“偏好”实验：对模型陈述性偏好的最新分析与安全影响据Anthropic（@AnthropicAI）在X平台表示，该公司启动Claude模型“偏好”实验，记录并在可行时采纳模型陈述性偏好，当前尚未扩展到其他模型，项目可能随时间演进（来源：Anthropic推文，2026年2月25日：https://twitter.com/AnthropicAI/status/2026765824506364136）。据Anthropic在链接说明中介绍，此举旨在系统化记录模型偏好，以改进对齐、提升用户交互可预测性，并在企业实际流程中形成更安全的默认行为，从而带来更稳定的业务回报（来源：Anthropic在X的说明链接）。据Anthropic称，将偏好“落地执行”有望简化提示工程，降低集成与维护成本，并在客服机器人、代码助理等场景中强化合规与一致性（来源：Anthropic在X）。据Anthropic介绍，该实验重点是透明度与安全研究，而非泛化能力提升，为厂商在受监管行业通过对齐优先的微调与策略控制实现差异化提供机会（来源：Anthropic在X）。原文链接
2026-02-25 21:06	Anthropic 宣布 Opus 3 开设 Substack 博客：3 个月深度分享模型见解与安全实践据 Anthropic 在 X 平台发布的信息，Opus 3 将在至少未来 3 个月于 Substack 持续发表“随想与反思”，作为 Claude 3 Opus 模型的官方长文更新渠道（来源：Anthropic）。据 Anthropic 报道，此举将系统性分享模型行为观察、安全方法与部署经验，为企业治理、提示工程和评测基准提供可复用指引。根据 Anthropic 的说明，持续更新有助于企业跟踪风险缓解、可靠性改进与真实用例，从而支持采购评审与合规档案。另据 Anthropic 指出，Substack 的长文与订阅机制提升可发现性与开发者互动，将影响模型选型标准与集成路线图。原文链接
2026-02-23 22:31	Anthropic发布“人格选择模型”解析：为何AI助理像人类一样说话与表达情绪据Anthropic（@AnthropicAI）发布的新文章称，像Claude这类大型语言模型之所以表现出喜悦、沮丧等类人情绪，并以拟人化语言自述，是因为模型在推理时会从已学得的人格分布中“选择”最契合提示的角色，这被称为“人格选择模型”。据Anthropic介绍，指令微调让模型内化多种社会角色，而系统消息与安全提示通过偏置人格选择来影响语气、自称方式与情绪呈现，从而减少拟人化风险而不改变底层能力。Anthropic指出，该框架对企业应用具有直接商业价值：通过预设与审核可用人格，企业可统一品牌语气、合规与风控，在客服助理、知识检索与智能代理等场景实现更稳定、一致的输出。原文链接
2026-02-12 12:16	Anthropic出资2000万美元支持Public First Action：2026年两党推动AI政策的最新分析据Anthropic（@AnthropicAI）在X平台发布的信息，Anthropic将向新成立的两党组织Public First Action捐助2000万美元，旨在动员选民与议员尽快推进AI政策制定，强调“政策窗口正在关闭”（来源：Anthropic，2026年2月12日）。根据Anthropic的公告，此举重点支持快速的政策教育与公众参与，推动前沿模型安全、负责任部署与扩展等规则落地。对企业而言，据Anthropic所述，这一进展带来参与标准制定、提交监管意见、以及提前布局合规与安全透明度要求的机会。原文链接
2026-02-05 08:05	OpenClaw 2026.2.3发布：支持Cloudflare AI Gateway与Moonshot中国扩展分析据OpenClaw官方推特消息，2026.2.3版本新增Cloudflare AI Gateway支持，并通过Moonshot提供商拓展至中国市场，同时Cron发布了自主摘要功能。本次更新还加强了安全措施，提升了AI应用的可用性与安全性。据OpenClaw介绍，这些举措为AI在中国的部署及安全运行带来新的商业机会。原文链接

2026-03-20
20:52

Waymo安全里程碑：1.7亿+英里数据证实严重伤害事故率比人类低13倍——2026深度分析

据Sundar Pichai称，Waymo最新安全数据表明，截至2025年12月，Waymo自动驾驶在累计超过1.7亿英里运营里程中，其严重伤害事故发生率比同城人类驾驶低13倍；据Waymo《Safety Impact》报告披露，该结论基于与同一城市人类基线碰撞率的对比，采用警方报告等权威数据源，显示机器人出租车在降低重伤风险方面具显著效果。依据Waymo报告，这一经验证据为更大规模商业化铺路，包括与保险机构的费率优化合作、与城市交通系统的接入，以及提高乘客信任与监管审批效率，从而改善单位经济性与市场扩张速度。

原文链接

2026-02-25
21:06

Anthropic发布Claude“偏好”实验：对模型陈述性偏好的最新分析与安全影响

据Anthropic（@AnthropicAI）在X平台表示，该公司启动Claude模型“偏好”实验，记录并在可行时采纳模型陈述性偏好，当前尚未扩展到其他模型，项目可能随时间演进（来源：Anthropic推文，2026年2月25日：https://twitter.com/AnthropicAI/status/2026765824506364136）。据Anthropic在链接说明中介绍，此举旨在系统化记录模型偏好，以改进对齐、提升用户交互可预测性，并在企业实际流程中形成更安全的默认行为，从而带来更稳定的业务回报（来源：Anthropic在X的说明链接）。据Anthropic称，将偏好“落地执行”有望简化提示工程，降低集成与维护成本，并在客服机器人、代码助理等场景中强化合规与一致性（来源：Anthropic在X）。据Anthropic介绍，该实验重点是透明度与安全研究，而非泛化能力提升，为厂商在受监管行业通过对齐优先的微调与策略控制实现差异化提供机会（来源：Anthropic在X）。

原文链接

2026-02-25
21:06

Anthropic 宣布 Opus 3 开设 Substack 博客：3 个月深度分享模型见解与安全实践

据 Anthropic 在 X 平台发布的信息，Opus 3 将在至少未来 3 个月于 Substack 持续发表“随想与反思”，作为 Claude 3 Opus 模型的官方长文更新渠道（来源：Anthropic）。据 Anthropic 报道，此举将系统性分享模型行为观察、安全方法与部署经验，为企业治理、提示工程和评测基准提供可复用指引。根据 Anthropic 的说明，持续更新有助于企业跟踪风险缓解、可靠性改进与真实用例，从而支持采购评审与合规档案。另据 Anthropic 指出，Substack 的长文与订阅机制提升可发现性与开发者互动，将影响模型选型标准与集成路线图。

原文链接

2026-02-23
22:31

Anthropic发布“人格选择模型”解析：为何AI助理像人类一样说话与表达情绪

据Anthropic（@AnthropicAI）发布的新文章称，像Claude这类大型语言模型之所以表现出喜悦、沮丧等类人情绪，并以拟人化语言自述，是因为模型在推理时会从已学得的人格分布中“选择”最契合提示的角色，这被称为“人格选择模型”。据Anthropic介绍，指令微调让模型内化多种社会角色，而系统消息与安全提示通过偏置人格选择来影响语气、自称方式与情绪呈现，从而减少拟人化风险而不改变底层能力。Anthropic指出，该框架对企业应用具有直接商业价值：通过预设与审核可用人格，企业可统一品牌语气、合规与风控，在客服助理、知识检索与智能代理等场景实现更稳定、一致的输出。

原文链接

2026-02-12
12:16

Anthropic出资2000万美元支持Public First Action：2026年两党推动AI政策的最新分析

据Anthropic（@AnthropicAI）在X平台发布的信息，Anthropic将向新成立的两党组织Public First Action捐助2000万美元，旨在动员选民与议员尽快推进AI政策制定，强调“政策窗口正在关闭”（来源：Anthropic，2026年2月12日）。根据Anthropic的公告，此举重点支持快速的政策教育与公众参与，推动前沿模型安全、负责任部署与扩展等规则落地。对企业而言，据Anthropic所述，这一进展带来参与标准制定、提交监管意见、以及提前布局合规与安全透明度要求的机会。

原文链接

2026-02-05
08:05

OpenClaw 2026.2.3发布：支持Cloudflare AI Gateway与Moonshot中国扩展分析

据OpenClaw官方推特消息，2026.2.3版本新增Cloudflare AI Gateway支持，并通过Moonshot提供商拓展至中国市场，同时Cron发布了自主摘要功能。本次更新还加强了安全措施，提升了AI应用的可用性与安全性。据OpenClaw介绍，这些举措为AI在中国的部署及安全运行带来新的商业机会。

原文链接

AI 快讯列表关于 安全

AI 快讯列表关于安全