AI 快讯列表关于 动态评测
| 时间 | 详情 |
|---|---|
|
2026-02-23 19:08 |
最新分析:统一AI基准面板显示METR等多项测试正被快速“跑满”
据Ethan Mollick在X平台表示,Dan Shapiro在Google AI Studio推出的应用将多项AI安全与能力基准(不止METR)整合到同一面板,显示主流模型正快速“跑满”各类测试(来源:Ethan Mollick,附aistudio.google.com应用链接)。据Dan Shapiro介绍,应用内提供基准来源与细节,可直观对比模型进展,强调在软件领域出现“硬起飞”迹象时,传统静态基准易被饱和。对企业而言,这一聚合视图可用于追踪模型能力趋势、优化内部评测流程,并指引投入更难的基准、红队测试与动态评测(来源:Shapiro声明与Mollick转述)。 |