AI 快讯列表关于 LLM评审
| 时间 | 详情 |
|---|---|
|
2026-02-22 20:31 |
LLM 评审陷入瓶颈:新论文证实弱评审难以评估更强模型——2026 深度分析
据 Ethan Mollick 在 X(Twitter)发布的消息称,许多基准以更小更便宜的 LLM 充当评审,但新研究显示弱评审无法可靠评估更强模型;基准应视为“数据集、被测模型、评审”三元组,评审正成为饱和瓶颈(来源:Mollick 2026 年 2 月 22 日帖子)。据 Mollick 转述,该研究表明当评审能力落后于被测模型时,评估出现系统性偏差与性能低估。这对以分数驱动上线的 AI 产品带来业务风险,也为提供高能力评审、人机协同裁决与元评测工具的厂商带来市场机会。根据 Mollick 的总结,论文建议基准设计者公开评审规格、测试评审一致性,并在评测前沿模型时配置更高能力的评审预算。 |