AI 快讯列表关于 ARC测评
| 时间 | 详情 |
|---|---|
|
2026-03-02 23:53 |
ARC-AGI-2测评:中国产开源权重模型落后前沿闭源模型——数据驱动分析
据ARC Prize在X平台披露,ARC-AGI-2半私测结果显示:Kimi K2.5 得分12%($0.28),Minimax M2.5 得分5%($0.17),GLM-5 得分5%($0.27),DeepSeek V3.2 得分4%($0.12),整体低于2025年7月前沿实验室模型水平(来源:ARC Prize,信息由Ethan Mollick转发)。据ARC Prize,这表明当前中国产开源权重模型在窄域任务有优势,但在泛化与分布外推理上明显弱于领先闭源模型,影响需要强鲁棒性的商业场景,如多步骤推理、复杂工具链与自治体代理。依据ARC Prize披露的成本与得分对比,尽管推理成本具备价格优势,但单位成本的推理产出不足,企业可考虑“混合架构”:以闭源前沿模型承载高难度推理,将开源权重模型用于成本敏感、领域限定的工作负载。 |
|
2026-02-19 16:43 |
Gemini 3.1 Pro重大突破:ARC-AGI-2得分77.1,推理性能翻倍——深度分析与商业影响
据Jeff Dean在X平台表示,谷歌Gemini 3.1 Pro在ARC-AGI-2基准上获得77.1%,其推理能力较Gemini 3 Pro提升逾一倍,并提供并排对比展示明显改进(来源:Jeff Dean,X,2026年2月19日)。据Jeff Dean称,该成绩意味着更强的一般性推理与工具使用能力,可用于企业级多步骤数据分析、代理式规划与代码生成等复杂工作流。根据Jeff Dean的信息,这一跃升也暗示更高效的链式思维与测试时推理,有望在金融、医疗与客服等生产环境中降低推理步骤与成本。依据Jeff Dean的发布,围绕ARC-AGI-2这一推理基准的领先表现,将加剧前沿模型竞争,并为Google Cloud的AI产品带来高端API定价、分层打包与增购机会。 |