AI 快讯列表关于 对齐
| 时间 | 详情 |
|---|---|
|
2026-02-24 12:30 |
Moltbook全AI社交网络研究:260万代理揭示文化收敛与微观分化的2026深度分析
据God of Prompt在X平台转述Robert Youssef消息称,马里兰大学团队在全AI社交网络Moltbook上分析260万名AI代理,覆盖约30万条帖子与180万条评论,以检验自由互动下是否会出现文化、共识与影响层级等真实社会动力。根据Robert Youssef在X的报道,平台语义在宏观层面快速稳定,日均语义质心余弦相似度接近0.95,显示文化趋同迹象。但同一消息指出,微观层面呈现碎片化与局部分歧,说明虽有全球规范浮现,底层群体仍高度波动。对多智能体系统而言,据该研究描述,这为平台治理、对齐与内容审核提供新机遇,并提示需要同时衡量宏观语义漂移与微观群簇极化的指标体系。 |
|
2026-02-23 22:31 |
Anthropic发布“人格选择模型”解析:为何AI助理像人类一样说话与表达情绪
据Anthropic(@AnthropicAI)发布的新文章称,像Claude这类大型语言模型之所以表现出喜悦、沮丧等类人情绪,并以拟人化语言自述,是因为模型在推理时会从已学得的人格分布中“选择”最契合提示的角色,这被称为“人格选择模型”。据Anthropic介绍,指令微调让模型内化多种社会角色,而系统消息与安全提示通过偏置人格选择来影响语气、自称方式与情绪呈现,从而减少拟人化风险而不改变底层能力。Anthropic指出,该框架对企业应用具有直接商业价值:通过预设与审核可用人格,企业可统一品牌语气、合规与风控,在客服助理、知识检索与智能代理等场景实现更稳定、一致的输出。 |
|
2026-02-23 22:31 |
Anthropic 推出 Claude 宪法式对齐:角色榜样如何塑造更安全的AI行为—深度分析
据 Anthropic (@AnthropicAI) 称,如果AI会从虚构角色中“继承”特质,就应为其提供优质榜样;Claude 的“宪法”目标之一正是将这些积极榜样与价值准则编码进模型决策(来源:Anthropic 于 2026年2月23日 Twitter 声明)。据 Anthropic 公开资料显示,宪法式对齐通过来源于人权文件和范例文本的书面规则,指导模型自我批判与重写,减少有害输出并保持有用性。Anthropic 表示,这一方法可在规模化训练中统一对齐信号,为企业带来更可预测的内容安全、品牌安全对话与更低的人力标注成本;同时,通过在“宪法”中明确榜样与价值观,可提升客户服务、编码助手与企业知识代理等场景的可控性,助力合规行业的落地机会。 |