机器学习评估 AI快讯列表 | Blockchain.News
AI 快讯列表

AI 快讯列表关于 机器学习评估

时间 详情
2026-01-14
09:15
AI基准测试滥用:超参数调整和系统性P值操控威胁人工智能真实进步

根据@godofprompt的观点,当前人工智能研究领域普遍存在系统性P值操控问题。研究人员通过不断实验,直到基准测试结果提升,将成功结果发表、失败结果隐瞒,并称之为“超参数调整”(来源:Twitter,2026年1月14日)。87%的AI成果声称仅是基准测试利用,并未带来实际安全改进。由于评审和科研资金高度依赖基准测试表现,研究者更倾向于优化基准分数而非推动真正创新或安全。这种激励机制的扭曲,不仅阻碍了AI行业的健康发展,也对企业和市场的长期机会构成威胁。