Challenges Persist in Developing Artificial General Intelligence, Apple Researchers Reveal

Binance News · 2025-06-09T04:33:40.000Z

According to Cointelegraph, the pursuit of artificial general intelligence (AGI) remains a complex challenge, as highlighted by Apple researchers who have identified significant reasoning difficulties in leading AI models. Despite recent advancements in large language models (LLMs) like OpenAI's ChatGPT and Anthropic's Claude, the fundamental capabilities and limitations of these models are not fully understood, as detailed in a June paper titled "The Illusion of Thinking." The researchers emphasize that current evaluations focus heavily on mathematical and coding benchmarks, prioritizing final answer accuracy without adequately assessing the reasoning abilities of AI models. Apple's research contrasts with the widespread belief that AGI is imminent. To explore the reasoning capabilities of AI, the researchers designed various puzzle games to test both "thinking" and "non-thinking" versions of models such as Claude Sonnet, OpenAI's o3-mini and o1, and DeepSeek-R1 and V3 chatbots. Their findings reveal that frontier large reasoning models (LRMs) experience a significant drop in accuracy when faced with complex tasks, failing to generalize reasoning effectively. This contradicts expectations for AGI, as these models struggle with exact computation, inconsistent reasoning, and an inability to apply explicit algorithms across different puzzles. The study also highlights that AI chatbots often exhibit overthinking, generating correct answers initially but then deviating into incorrect reasoning. The researchers conclude that LRMs mimic reasoning patterns without truly internalizing or generalizing them, falling short of AGI-level reasoning. These insights challenge prevailing assumptions about LRM capabilities and suggest that current approaches may be encountering fundamental barriers to achieving generalizable reasoning. AGI is considered the ultimate goal of AI development, representing a state where machines can think and reason on par with human intelligence. In January, OpenAI CEO Sam Altman expressed confidence in the company's progress toward building AGI, stating that they are closer than ever before. Similarly, Anthropic CEO Dario Amodei predicted that AGI could surpass human capabilities within the next few years, potentially by 2026 or 2027. Despite these optimistic projections, the findings from Apple researchers underscore the ongoing challenges in the race to develop AGI.

Згідно з Cointelegraph, прагнення до створення загального штучного інтелекту (ЗШІ) залишається складним завданням, як підкреслюють дослідники Apple, які виявили значні труднощі з міркуваннями у провідних моделях ШІ. Незважаючи на нещодавні досягнення у моделях великих мов програмування (LLM), таких як ChatGPT від OpenAI та Claude від Anthropic, фундаментальні можливості та обмеження цих моделей не до кінця зрозумілі, як детально описано в червневій статті під назвою «Ілюзія мислення». Дослідники наголошують, що поточні оцінки значною мірою зосереджені на математичних та кодуючих орієнтирах, надаючи пріоритет точності остаточної відповіді без належної оцінки здібностей моделей ШІ до міркування.
Дослідження Apple контрастує з поширеною думкою про те, що ОШІ неминучий. Щоб дослідити можливості ШІ до міркування, дослідники розробили різні головоломки для тестування як «мислячих», так і «немислячих» версій моделей, таких як Claude Sonnet, o3-mini та o1 від OpenAI, а також чат-боти DeepSeek-R1 та V3. Їхні результати показують, що моделі великих міркувань на межі (LRM) зазнають значного зниження точності, коли стикаються зі складними завданнями, не в змозі ефективно узагальнювати міркування. Це суперечить очікуванням щодо ОШІ, оскільки ці моделі мають проблеми з точними обчисленнями, непослідовними міркуваннями та нездатністю застосовувати явні алгоритми до різних головоломок.
У дослідженні також підкреслюється, що чат-боти зі штучним інтелектом часто демонструють надмірне мислення, спочатку генеруючи правильні відповіді, але потім відхиляючись до неправильних міркувань. Дослідники роблять висновок, що LRM імітують моделі міркувань, не засвоюючи та не узагальнюючи їх по-справжньому, що не відповідає міркуванню рівня AGI. Ці висновки ставлять під сумнів поширені припущення щодо можливостей LRM та свідчать про те, що сучасні підходи можуть стикатися з фундаментальними перешкодами для досягнення узагальнюючого мислення.
ЗШІ вважається кінцевою метою розвитку штучного інтелекту, що представляє стан, коли машини можуть мислити та міркувати нарівні з людським інтелектом. У січні генеральний директор OpenAI Сем Альтман висловив впевненість у прогресі компанії у створенні ЗШІ, заявивши, що вони ближчі до цього, ніж будь-коли раніше. Аналогічно, генеральний директор Anthropic Даріо Амодей передбачив, що ЗШІ може перевершити людські можливості протягом наступних кількох років, потенційно до 2026 або 2027 року. Незважаючи на ці оптимістичні прогнози, висновки дослідників Apple підкреслюють поточні виклики у гонці за розробку ЗШІ.

Дослідники Apple виявляють, що проблеми у розробці загального штучного інтелекту залишаються невирішеними

Останні новини