AI 快讯列表关于 长文任务
| 时间 | 详情 |
|---|---|
|
2026-03-05 18:53 |
GPT-5.4 GDPval基准最新分析:专业任务82%与人类持平或更优,7小时任务平均节省4小时38分
据Ethan Mollick在X平台援引GDPval基准测试披露,GPT-5.4在专业任务中由独立专家评判时有82%概率与人类持平或胜出,并在考虑失败重试与1小时人工审核后,对单个7小时任务可平均节省4小时38分(来源:Ethan Mollick)。据其说明,因OpenAI未更新GDPval中GPT-5.2的长任务图表,他使用GPT-5.2 Pro进行了图表更新与外推,展示了可操作的时间节省与专家评审下的质量表现(来源:Ethan Mollick)。对企业而言,这意味着可通过“AI先行—1小时评估—必要时重试或回退”的流程,在知识型工作中实现周期压缩、成本下降与产能提升,同时维持多数场景的专家级质量(来源:Ethan Mollick)。 |