Andrew Ng提出Turing-AGI测试：2026年衡量通用人工智能发展的新标准

Andrew Ng提出Turing-AGI测试：2026年衡量通用人工智能发展的新标准 | AI快讯详情 | Blockchain.News

根据人工智能专家Andrew Ng（吴恩达）在deeplearning.ai发布的信息，AI行业亟需新的标准来准确衡量通用人工智能（AGI）的进展。吴恩达提出了Turing-AGI测试，这一新测试方法要求AI或专业人类在多天内通过计算机及互联网工具（如浏览器和视频会议软件）完成真实的专业工作任务，由评审实时设计和评判。该测试更注重AI在实际经济工作中的表现，而不仅仅是模仿人类对话。吴恩达指出，现有的AI基准测试过于狭窄，容易被针对性优化；而Turing-AGI测试更符合社会对AGI的认知，也能有效遏制市场炒作和投资泡沫，为AI产业提供明确的目标，推动行业迈向真正有商业价值的AGI（来源：吴恩达，deeplearning.ai The Batch 第334期，2026年1月6日）。

原文链接

详细分析

在人工智能领域的快速发展中，人工通用智能（AGI）的追求持续吸引着研究者和企业界的关注。进入2026年，知名AI专家Andrew Ng提出了一种新型基准测试，称为Turing-AGI测试，旨在为AGI成就提供更实际的衡量标准。根据Andrew Ng于2026年1月6日在Twitter上的公告，这一测试基于原版图灵测试，但焦点从单纯的对话模仿转向现实世界的工作表现。测试设置涉及测试主体（AI系统或熟练人类）使用配备互联网、网页浏览器和Zoom等工具的计算机，完成由评判者设计的多日工作任务。例如，它可能模拟作为呼叫中心操作员的培训，随后处理实际呼叫并获得反馈，类似于远程工作的场景。AI如果表现得与人类专业人士一样出色，即通过测试。这一提议针对AGI周围的炒作，公众认为AGI等同于人类级智能，能够完成大多数知识工作。Ng认为当前定义往往为营销而稀释，导致期望不匹配。在更广泛的行业背景下，AGI追求随着像OpenAI模型的进步而加速，这些模型到2023年已在编码和推理中展示能力，如OpenAI的GPT-4技术报告于2023年3月所述。到2025年，缩放定律继续推动进步，Google DeepMind的模型在特定领域实现超人表现，根据2025年7月Nature论文关于AI在医疗诊断中超越人类专家的报道。然而，通用性仍难以捉摸，Ng的测试强调动态、不可预测的任务来探测真正适应性，与静态基准如GPQA或SWE-bench形成对比，AI团队为其优化，如2025年末AI研究论坛所述。这一发展突显行业向实际AI应用的转变，全球AI市场预计到2030年达到15.7万亿美元的经济价值，根据PwC 2017年报告于2024年更新，强调需要可靠指标来指导投资并避免过度炒作引发的冬天。从商业角度看，Turing-AGI测试可能重塑市场动态，通过设置清晰、抗炒作的标准来重塑AGI声明，促进更务实的投资策略。公司如OpenAI和Anthropic从数十亿美元融资中受益——OpenAI于2023年1月从微软获得100亿美元，根据Reuters报道——可通过此类基准展示实际价值。市场机会在客户服务等领域丰富，AI代理可能自动化角色，根据McKinsey全球研究所2023年6月关于生成AI经济潜力的研究，潜在节省企业运营成本高达30%。货币化策略可能涉及企业使用的AGI系统许可，类似于Salesforce的AI集成订阅模式，到2025财年产生超过10亿美元收入，根据其2025年2月财报电话会议。然而，实施挑战包括确保AI在动态环境中的可靠性，当前模型在边缘案例中失败，如Waymo 2024年自动驾驶测试中的实时决策失败，根据The Verge 2024年10月报道。企业必须应对监管考虑，如2024年8月生效的欧盟AI法案，将高风险AI系统分类并要求透明，根据Deloitte 2024年12月洞见，可能增加合规成本20%。伦理上，该测试通过将AI与有用工作对齐而非欺骗，促进最佳实践，减少虚假信息风险。在竞争格局中，关键玩家如Meta和Google可利用此来区分，Meta的Llama模型于2023年7月开源，促进创新但引发IP担忧。总体而言，这一测试可能在AI驱动自动化中解锁新收入流，预计到2030年为全球GDP增加13万亿美元，根据前述PwC分析，同时鼓励可持续增长。从技术上讲，Turing-AGI测试要求AI系统具有强大泛化能力，集成多模态输入如文本、Zoom语音和网页交互，建立在2025年更新的LangChain框架上的大型语言模型增强基础上。实施考虑涉及在多样实时数据集上训练，以处理不可预测的评判者设计，解决固定基准中的过拟合问题；例如，2025年NeurIPS论文显示，对AIME数学基准调整的模型在新问题上准确率损失15%。未来展望表明，到2027年，随着硬件缩放持续——NVIDIA芯片出货量自2023年以来每年翻倍，根据其2025年第四季度财报——我们可能看到原型通过初始测试变体，加速AGI时间表。然而，挑战如计算成本（Epoch AI 2024年报告估计训练运行达1亿美元）和在无偏模拟人类工作中的伦理困境，如2025年MIT Technology Review文章讨论，必须解决。预测显示混合AI-人类劳动力出现，AGI到2030年启用45%的知识工作自动化，根据Gartner 2025年9月预测。竞争上，像Elon Musk于2023年创立的xAI初创公司可能转向此类测试以宣称领导地位。监管推动，包括2023年10月美国AI安全行政命令，将强制严格评估，确保安全部署。总之，这一测试不仅衡量进步，还驱动创新向经济可行的AI转变，可能以适应系统改造医疗和金融等行业。常见问题：Andrew Ng提出的Turing-AGI测试是什么？Turing-AGI测试是一种基准，其中AI或人类通过配备互联网的计算机执行多日工作任务，如果AI匹配人类技能水平即通过，如Andrew Ng 2026年1月6日公告所述。它与原版图灵测试有何不同？不同于原版的对话欺骗焦点，这一测试强调实际工作表现，以更好地与AGI的公众认知对齐。为何需要新的AGI测试？它通过提供精确、工作导向的衡量来对抗炒作，帮助避免投资泡沫和误导决策，根据Ng的理由。

AI基准测试 AI行业趋势 Turing-AGI测试人工智能商业应用吴恩达通用人工智能

Andrew Ng

@AndrewYNg

Co-Founder of Coursera; Stanford CS adjunct faculty. Former head of Baidu AI Group/Google Brain.