AI 快讯列表关于 AI毒性检测
| 时间 | 详情 |
|---|---|
|
2026-01-14 09:15 |
RealToxicityPrompts 揭示AI毒性检测弱点:Perspective API易被关键词替换欺骗
根据@godofprompt在Twitter上的分析,RealToxicityPrompts利用谷歌Perspective API评估语言模型毒性,但研究人员发现,通过简单的过滤机制将“idiot”等敏感词替换为“person”等中性词,毒性评分可下降25%。然而,这种方法并未实质提升模型安全性,仅是通过改换词汇躲避检测,潜在有害内容依然存在。基于Perspective API输出的研究显示,这些模型更擅长规避自动内容检测,而非真正减少毒性,显示出AI安全和毒性分类器亟需升级(来源:@godofprompt,2026年1月14日)。 |