ARC-AGI-2测评:中国产开源权重模型落后前沿闭源模型——数据驱动分析 | AI快讯详情 | Blockchain.News
最新更新
3/2/2026 11:53:00 PM

ARC-AGI-2测评:中国产开源权重模型落后前沿闭源模型——数据驱动分析

ARC-AGI-2测评:中国产开源权重模型落后前沿闭源模型——数据驱动分析

据ARC Prize在X平台披露,ARC-AGI-2半私测结果显示:Kimi K2.5 得分12%($0.28),Minimax M2.5 得分5%($0.17),GLM-5 得分5%($0.27),DeepSeek V3.2 得分4%($0.12),整体低于2025年7月前沿实验室模型水平(来源:ARC Prize,信息由Ethan Mollick转发)。据ARC Prize,这表明当前中国产开源权重模型在窄域任务有优势,但在泛化与分布外推理上明显弱于领先闭源模型,影响需要强鲁棒性的商业场景,如多步骤推理、复杂工具链与自治体代理。依据ARC Prize披露的成本与得分对比,尽管推理成本具备价格优势,但单位成本的推理产出不足,企业可考虑“混合架构”:以闭源前沿模型承载高难度推理,将开源权重模型用于成本敏感、领域限定的工作负载。

原文链接

详细分析

最近在ARC-AGI-2基准测试上的评估结果突显了中国主要开源权重模型与领先前沿封闭模型之间的显著性能差距,这提供了这些模型在一般任务和分布外挑战中相对脆弱的实证证据。根据Ethan Mollick在2026年3月2日的推文,Moonshot AI的Kimi K2.5模型在ARC-AGI-2半私有排行榜上仅获得12%的准确率,评估成本为0.28美元。同样,Minimax M2.5得分为5%,成本0.17美元;Zhipu AI的GLM-5为5%,成本0.27美元;Deepseek V3.2为4%,成本0.12美元。这些分数低于2025年7月前沿实验室的水平,正如ARC Prize更新所指出的。ARC-AGI基准由François Chollet开发,通过新型谜题测试核心智能,强调抽象和推理能力,而非记忆模式,这使其成为AI泛化能力的关键指标。这一数据凸显了AI发展的更广泛趋势,即中国开源模型在狭窄的数据密集领域如语言处理中表现出色,但在适应性上挣扎。对于企业而言,这一发现影响全球AI采用策略,尤其是在需要强大、多功能AI解决方案的领域,如自主系统和创造性问题解决。截至2026年初,这一基准结果预示潜在市场转变,企业可能更青睐OpenAI或Anthropic等公司的可靠封闭模型用于关键任务应用。

深入探讨商业影响,这些基准结果揭示了西方AI公司在竞争格局中利用中国模型弱点的机会。例如,医疗保健和金融行业需要不确定性下的高风险决策,可能增加对分布外性能优越模型的需求。根据ARC Prize组织在2025年的报告,与Grok或Claude相关的前沿模型在类似任务上展示了超过20%的分数,突显竞争优势。这种差距可能推动AI提供商的货币化策略,如高级推理能力的溢价许可模式。中国模型的实施挑战包括在没有海量计算资源的情况下扩展泛化,正如其较低分数尽管成本更低所证明的。解决方案可能涉及混合方法,将开源权重与多样数据集微调结合,但根据2026年AI研究人员的分析,这需要克服地缘政治紧张导致的数据访问障碍。从伦理角度,在现实场景中部署脆弱模型引发可靠性担忧,促使最佳实践如严格测试和模型局限透明。关键玩家包括DeepSeek AI和Moonshot AI,它们主导中国开源AI生态,但面临全球巨头的激烈竞争,这些巨头在AGI研究中大量投资。

从市场趋势角度来看,2026年3月的ARC-AGI-2结果指向AI咨询和定制服务的货币化机会演变。企业可以利用这些洞见开发针对泛化差距的定制AI解决方案,可能通过专用训练平台创造新收入流。监管考虑至关重要,尤其是欧盟AI法案等机构强调高影响AI系统的风险评估。在竞争格局中,这种脆弱性可能加速中国公司与国际伙伴的合作,以提升能力,正如百度与微软过去的联盟所见。基准的技术细节显示,虽然中国模型在MMLU等知识回忆基准上表现良好,但抽象分数落后,Kimi K2.5的12%是该组最高但仍低于西方基线。未来预测表明,到2027年,神经符号AI的进步可能弥合这些差距,提供如集成符号推理模块的实施策略。然而,中国的人才短缺挑战,正如McKinsey在2025年报告的全球AI人才战争,可能阻碍进展。

展望未来,这些基准差距的未来含义可能重塑行业影响,预测到2028年将形成分化AI市场,其中专业、鲁棒模型主导溢价定价。对于实际应用,电子商务和物流企业可能整合混合系统以缓解风险,促进适应性AI创新。伦理最佳实践将演变为包括模型弱点强制披露,与合规框架一致。总体而言,2026年3月的这一实证证据鼓励对多功能AI的战略投资,使公司能够在动态全球景观中利用新兴机会。(字数:约1250字符)

Ethan Mollick

@emollick

Professor @Wharton studying AI, innovation & startups. Democratizing education using tech