A corrida para desenvolver inteligência geral artificial (AGI) ainda tem um longo caminho a percorrer, de acordo com pesquisadores da Apple que descobriram que os principais modelos de IA ainda têm dificuldades de raciocínio.

Atualizações recentes nos principais modelos de linguagem de IA (LLMs) como o ChatGPT da OpenAI e o Claude da Anthropic incluíram grandes modelos de raciocínio (LRMs), mas suas capacidades fundamentais, propriedades de escalabilidade e limitações "continuam insuficientemente compreendidas," disseram os pesquisadores da Apple em um artigo de junho intitulado "A Ilusão de Pensar."

Eles observaram que as avaliações atuais se concentram principalmente em padrões matemáticos e de codificação estabelecidos, "enfatizando a precisão da resposta final."

No entanto, essa avaliação não fornece percepções sobre as capacidades de raciocínio dos modelos de IA, disseram eles.

A pesquisa contrasta com a expectativa de que a inteligência geral artificial está a apenas alguns anos de distância.

Pesquisadores da Apple testam modelos de IA "pensantes"

Os pesquisadores elaboraram diferentes jogos de quebra-cabeça para testar variantes "pensantes" e "não pensantes" de Claude Sonnet, o o3-mini e o o1 da OpenAI, e os chatbots DeepSeek-R1 e V3, além dos padrões matemáticos tradicionais.

Eles descobriram que "modelos de linguagem de fronteira enfrentam um colapso completo de precisão além de certas complexidades", não generalizam o raciocínio de forma eficaz, e sua vantagem desaparece com o aumento da complexidade, ao contrário das expectativas para as capacidades de AGI.

"Descobrimos que os LRMs têm limitações em computação exata: eles falham em usar algoritmos explícitos e raciocinam de forma inconsistente em quebra-cabeças."

Chatbots de IA estão pensando demais, dizem pesquisadores

Eles encontraram raciocínio inconsistente e superficial com os modelos e também observaram excesso de pensamento, com os chatbots de IA gerando respostas corretas no início e depois se perdendo em raciocínios incorretos.

Os pesquisadores concluíram que os LRMs imitam padrões de raciocínio sem realmente internalizá-los ou generalizá-los, o que não chega ao nível de raciocínio de AGI.

"Essas percepções desafiam as suposições predominantes sobre as capacidades de LRM e sugerem que as abordagens atuais podem estar encontrando barreiras fundamentais ao raciocínio generalizável."

A corrida para desenvolver AGI

AGI é o santo graal do desenvolvimento de IA, um estado onde a máquina pode pensar e raciocinar como um humano e está em paridade com a inteligência humana.

Em janeiro, o CEO da OpenAI, Sam Altman, disse que a empresa estava mais próxima de construir AGI do que nunca. "Agora estamos confiantes de que sabemos como construir AGI como tradicionalmente a entendemos," ele disse na época.

Em novembro, o CEO da Anthropic, Dario Amodei, disse que a AGI superaria as capacidades humanas no próximo ano ou dois. "Se você apenas observar a taxa em que essas capacidades estão aumentando, isso faz você pensar que chegaremos lá até 2026 ou 2027," ele disse.

Revista: Ignore os pessimistas sobre empregos de IA, IA é boa para o emprego, diz PWC: Olho da IA