确认人类级别人工通用智能（AGI）的关键测试

realtime news Aug 23, 2024 22:22 UTC 14:22

1 Min Read

根据SingularityNET (AGIX)，确认人类级别人工通用智能（AGI）的实现需要通过几个严格的测试。这些测试设计用于探索机器如何思考、推理和行动像人类一样的不同维度。

图灵测试：智力的基础衡量标准

1950年由阿兰·图灵提出，图灵测试仍然是人工智能的标志性基准。它评估机器是否能展示出与人类无异的智能行为。尽管其基础地位，通通过图灵测试主要展示了机器的语言能力，而非真正的理解或意识。有趣的是，一些大型语言模型已经通过此测试，成功欺骗对话伙伴54%的时间。

Winograd模式挑战（WSC）解决了图灵测试的局限性，要求机器通过常识推理和世界知识解决双关代词问题。成功应对这些挑战表明了更深的理解层次，更接近于人类认知过程。尽管大型语言模型在处理类似Winograd模式的任务上表现出了一定的能力，它们并未始终如一地通过原始设想的WSC。

由苹果联合创始人史蒂夫·沃兹尼亚克提出，咖啡测试挑战一个配备AI的机器人在一个普通家庭中无需人类干预地做一杯咖啡。这个测试衡量了AI如何将各种知识形式整合到连贯和有目的的行动中，展示在实际应用中必需的实用情境智能。

由SingularityNET CEO本·戈兹尔博士首次提出，机器人大学生测试设想了一个AGI系统进入大学，与人类学生一起上课，并成功获得学位。这个测试要求AI在多个学术领域展示熟练度，参与讨论，完成作业并通过考试。

就业测试评估AI是否可以在无需特殊安排的情况下，执行任何人类可以完成的工作。这个测试挑战AI要快速学习新工作，适应变化的工作条件，并以社交适当的方式与人类同事互动。

伦理推理测试评估AI在面对道德困境时，做出符合人类价值观的决策的能力，如经典的小推车问题。这个测试评估AI的推理过程，对伦理原则的理解，以及其在某种程度上能让人类道德直觉产生共鸣的决策能力。

确认AGI不仅仅是技术的进步；还需要在机器中复制人类认知的深度和广度。这些测试中的每一个都针对通用智能的不同方面，形成一套全面的评估框架，以确定一个工程系统是否真的实现了人类级别的AGI。在语言理解、推理、实际问题解决、社交互动和伦理决策等各个领域的严格评估组合，可能会提供对AI能力的全面评估。

欲了解原文详情，请访问 SingularityNET.