p值操纵 AI快讯列表 | Blockchain.News
AI 快讯列表

AI 快讯列表关于 p值操纵

时间 详情
2026-01-14
09:15
AI基准过拟合危机:94%研究仅优化同6项测试,系统性p值操纵问题揭露

据God of Prompt(@godofprompt)报道,AI研究领域存在基准过拟合的系统性问题,94%的研究仅在同样的6项基准测试上进行优化。对开源代码仓库的分析显示,研究者通常运行超过40种配置,只发布分数最高的结果,未披露失败尝试。这种被称为p值操纵(p-hacking)的行为被行业普遍视为“调优”,严重影响了AI模型的实际可靠性、安全性和泛化能力。该趋势凸显了开发更健全、多样化和透明AI评估方法的商业机遇,有助于提升企业和消费级AI应用的安全性与可信度(来源:@godofprompt,2026年1月14日)。