AI 快讯列表关于 GPQA
| 时间 | 详情 |
|---|---|
|
2026-02-04 09:36 |
斯坦福2025年AI指数报告:最新基准分析显示模型进步迅速
根据God of Prompt的消息,斯坦福2025年AI指数报告显示,AI模型在各项基准测试中的表现提升显著。报告指出,MMMU得分一年内跃升18.8个百分点,GPQA提升48.9分,SWE-bench增长67.3分。虽然这些数据彰显了AI模型能力的飞跃,但报告同时质疑这些进步是否是真实突破或可能存在数据泄漏。 |
|
2025-06-05 16:00 |
Gemini 2.5 Pro更新:AI编码、推理与基准测试性能全面提升
根据Sundar Pichai在推特上的消息,Gemini 2.5 Pro更新现已开放预览版,并在AI编码、推理、科学与数学等能力上取得重大突破。该版本在AIDER Polyglot、GPQA和HLE等关键行业基准测试中表现更优,且在@lmarena_ai排行榜上较上一版本Elo分数提升24分(来源:Sundar Pichai,推特,2025年6月5日)。这些进步为企业在软件开发、科研与数据分析等领域应用先进AI创造了新商机。 |