Według Cointelegraph, dążenie do sztucznej inteligencji ogólnej (AGI) pozostaje złożonym wyzwaniem, co podkreślają badacze Apple'a, którzy zidentyfikowali istotne trudności w rozumowaniu w czołowych modelach AI. Pomimo ostatnich postępów w dużych modelach językowych (LLMs) takich jak ChatGPT OpenAI i Claude Anthropic, podstawowe możliwości i ograniczenia tych modeli nie są w pełni zrozumiane, jak szczegółowo opisano w artykule z czerwca zatytułowanym "Iluzja myślenia". Badacze podkreślają, że obecne oceny koncentrują się w dużej mierze na benchmarkach matematycznych i programistycznych, priorytetowo traktując dokładność ostatecznych odpowiedzi, nie oceniając w wystarczającym stopniu zdolności rozumowania modeli AI.

Badania Apple'a kontrastują z powszechnym przekonaniem, że AGI jest nieuchronne. Aby zbadać zdolności rozumowania AI, badacze zaprojektowali różne gry logiczne, aby przetestować zarówno wersje "myślące", jak i "niemyslące" modeli, takich jak Claude Sonnet, o3-mini i o1 OpenAI oraz chatboty DeepSeek-R1 i V3. Ich wyniki ujawniają, że nowoczesne duże modele rozumowania (LRMs) doświadczają znacznego spadku dokładności w obliczu złożonych zadań, nie potrafiąc skutecznie uogólniać rozumowania. Przeczy to oczekiwaniom dla AGI, ponieważ te modele mają trudności z dokładnymi obliczeniami, niespójnym rozumowaniem i brakiem zdolności do stosowania wyraźnych algorytmów w różnych zagadkach.

Badanie podkreśla również, że chatboty AI często wykazują nadmierne myślenie, generując poprawne odpowiedzi początkowo, ale następnie odchodząc w stronę błędnego rozumowania. Badacze stwierdzają, że LRMs naśladują wzorce rozumowania, nie internalizując ich w rzeczywistości ani nie uogólniając ich, co sprawia, że nie osiągają poziomu rozumowania AGI. Te spostrzeżenia podważają panujące założenia dotyczące możliwości LRMs i sugerują, że obecne podejścia mogą napotykać fundamentalne bariery w osiąganiu rozumowania, które można uogólnić.

AGI uważane jest za ostateczny cel rozwoju AI, reprezentując stan, w którym maszyny mogą myśleć i rozumować na równi z ludzką inteligencją. W styczniu dyrektor generalny OpenAI, Sam Altman, wyraził pewność co do postępów firmy w budowaniu AGI, stwierdzając, że są bliżej niż kiedykolwiek wcześniej. Podobnie dyrektor generalny Anthropic, Dario Amodei, przewidział, że AGI może przewyższyć ludzkie możliwości w ciągu najbliższych kilku lat, potencjalnie do 2026 lub 2027 roku. Pomimo tych optymistycznych prognoz, wyniki badaczy Apple'a podkreślają trwające wyzwania w wyścigu do rozwoju AGI.