根据苹果研究人员的研究,发展人工通用智能(AGI)的竞赛仍需时日。领先的AI模型在推理方面仍遇到困难。

最近,OpenAI的ChatGPT和Anthropic的Claude等大型语言模型(LLM)进行了更新,加入了大型推理模型(LRM)。然而,苹果研究人员在六月的一篇论文中指出,这些模型的基本能力、扩展特性和限制仍未被充分理解。

他们指出,目前的评估主要集中在数学和编程的准确性上,但未能深入洞察AI模型的推理能力。

研究人员设计了不同的谜题游戏来测试这些AI模型,并发现前沿的LRM在某些复杂性上失去准确性,未能有效推广推理,这与对AGI能力的期望相反。

“我们发现LRM在精确计算上存在限制:它们未能使用显式算法,并且在不同的谜题中推理不一致。”

研究人员称AI聊天机器人过度思考

研究人员发现模型存在不一致和浅层推理,并注意到AI聊天机器人早期给出正确答案后反而陷入错误推理。

“这些见解挑战了对LRM能力的普遍假设,并表明当前方法可能遇到了可推广推理的基本障碍。”

发展AGI的竞赛

AGI是AI发展的圣杯,目标是让机器能像人类一样思考和推理,达到与人类智力相当的水平。

今年一月,OpenAI CEO Sam Altman表示,公司比以往更接近构建AGI。他表示,“我们现在相信我们知道如何构建AGI,这和我们传统上的理解一致。”

十一月,Anthropic CEO Dario Amodei表示,AGI将在一两年内超越人类能力。