AI reasoning models aren’t as smart as they were cracked up to be, Apple study claims
В последние годы индустрия искусственного интеллекта уверенно преподносила новые модели, как шаг к созданию машин, способных думать, анализировать и принимать решения на уровне человека. Однако недавнее исследование, опубликованное на сайте компании Apple, ставит под сомнение всю эту концепцию. Ученые из Apple заявляют: современные модели рассуждений — это не более чем мощные статистические машины, неспособные к истинному логическому мышлению и, по сути, значительно уступают идеалам, которые раньше им приписывали.

Что такое модели рассуждений и как они работают?
Модели рассуждений, такие как Meta’s Claude, OpenAI’s o3 и DeepSeek’s R1, представляют собой крупные языковые модели (КЯМ), усовершенствованные алгоритмы, которые не просто отвечают на вопросы, а пытаются имитировать логический процесс. Их основная идея — использование «цепочки рассуждений» (chain-of-thought), которая позволяет моделям пошагово анализировать задачу, формулируя предположения и выводы, как это делает человек.
Для этого модели используют огромные объемы данных, в которых содержатся текстовые фрагменты, созданные людьми. В результате они приобретают вероятностные паттерны — если в данных часто встречается определенная последовательность слов, модель считает ее наиболее вероятной для конкретного вопроса. Однако, несмотря на впечатляющие достижения в обработке языка, такие модели работают в основном на статистике, а не на реальном понимании.
Обещания прогресса и реальные ограничения
Постепенно рост возможностей таких моделей породил волну оптимизма. Многие крупные технологические компании заявляли, что мы уже близки к созданию систем с искусственным общим интеллектом (AGI) — машин, превосходящих человека в большинстве задач. Особенно активно эти идеи продвигались на фоне внедрения новых версий моделей, которые стали выдавать более точные и сложные ответы.
«Мы находимся на пороге эпохи, когда искусственный интеллект достигнет уровня человеческого мышления», — говорили в нескольких крупнейших корпорациях, демонстрируя свои разработки.
Однако реальные исследования и эксперименты показывают, что такие заявления не соответствуют действительности. Исследование Apple из июня 2025 года привлекло к себе внимание научного сообщества, потому что оно демонстрирует — современные модели рассуждений на практике зачастую терпят крах при столкновении с усложнёнными задачами и не способны сохранять логику в длинных цепочках.
Что показывает недавнее исследование Apple?
Исследование, опубликованное 7 июня на сайте Apple Machine Learning Research, представляет собой масштабный тест моделей на различных классических задачах, таких как пересечение реки, прыжки через шашки, укладка блоков и башня Ханоя. Для проверки сложности задач ученые варьировали количество элементов: от простых до экстремальных вариантов.
Результаты оказались шокирующими:
- Модели, специально предназначенные для рассуждения, показывали лучший результат только на простых задачах.
- При увеличении сложности обе группы моделей — и «средние», и «рассуждающие» — демонстрировали постепенный спад эффективности.
- На высокой сложности эффективность обеих категорий «обнулялась», а модели переставали правильно решать даже базовые задачи.
Более того, авторы обнаружили удивительный эффект: при попытке усложнить задачу моделям рассуждений они сокращали число обработанных токенов (единиц информации), что свидетельствовало об активной деградации логики. Другими словами, модели не только переставали правильно рассуждать, но и буквально «отступали» — снижая усилия даже при наличии достаточной вычислительной мощности.
Почему модели «теряют рассудок»?
Проблема в фундаменте — модели основаны не на понимании, а на предсказании следующего слова или фразы. В процессе «цепочки рассуждения» они должны держать в памяти последовательность логических шагов, что является сложной задачей для нейросетей. К тому же, при столкновении с задачами, выходящими за рамки их обучающих данных, они начинают «галлюцинировать» — выдавать ложную или бессмысленную информацию.
«Модели страдают особенно сильно там, где требуется генерализация — то есть выводы из ранее не встречавшихся данных или ситуаций,» — отмечают авторы исследования.
Отдельное исследование OpenAI выявило, что модели, такие как o3 и o4-mini, при выполнении заданий по суммированию фактов о людях показывают уровень «галлюцинаций» — ошибок и ложных ответов — в диапазоне 33-48%. Это на 17-32% больше, чем у их предшественников.
Проблема в том, что чем умнее, чем сложнее модель, тем выше вероятность, что она начнет «врать» — что полностью противоречит идее о создании надежных систем.
Только статистика или что-то большее?
Авторы исследования подчеркивают важный момент: большинство тестов и оценок эффективности базируются на классических математических и программных задачах, таких как решения уравнений или кодирование. Но эти тесты не учитывают структурные особенности логики и рассуждения — фактически, они не позволяют понять, что действительно происходит внутри модели, когда она сталкивается с сложной задачей.
«Текущие методы оценки — это лишь верхушка айсберга,» — утверждают исследователи из Apple. — «Они не позволяют сделать выводы о структуре рассуждений и их качестве, что важно для дальнейшего развития искусственных интеллектов».
Что скрыто «за кулисами» моделей рассуждений?
Чтобы понять природу проблем, команда ученых провела эксперимент, нацеленный на изучение поведения моделей на классических задачах, требующих рассуждений, например, башню Ханоя и «пересечение реки» с добавлением элементов сложности. В ходе тестирования заметили, что при увеличении количества элементов моделям всё сложнее сохранять цепочку логических шагов. Даже предоставляя готовые алгоритмы решений, модели не показывали ожидаемую эффективность.
Интересно, что при этом модели демонстрируют способность выполнять короткие последовательности корректных действий, но теряют их при попытке рассуждать более длинно и подробно. Особенно ярко это проявляется в задачах, где требуется планирование и удержание нескольких логических условий одновременно.
Что означают эти результаты для будущего AI?
Очевидно, что современные модели — это в первую очередь сложные статистические алгоритмы, а не настоящие логические системы. Они не обладают внутренним пониманием, а лишь имитируют рассуждение, основываясь на трендах данных. Вывод — человечество еще очень далеко от создания машин с истинным «мышлением» или искусственным общим интеллектом.
Компании, такие как Apple, продолжают инвестировать в развитие on-device решений и менее амбициозных систем, потому что глобальные модели рассуждений всё еще не готовы к массовому применению. В то же время, это служит мощным напоминанием: претендовать на создание сверхразумных машин можно только на основе четкого понимания их возможностей и ограничений.
Что говорят ученые и эксперты?
Многие в научных кругах считают исследования Apple важным переломным моментом. Педрос Домингос, профессор в области компьютерных наук, шутит: «Стратегия Apple — доказать, что AI не существует — это скорее юмор, чем стратегия». Он отмечает, что подобные исследования помогают понять — современные модели действительно не обладают человеческими качествами рассуждения.
Андрий Бурков, эксперт по машинному обучению, подчеркивает: «Мы должны перестать верить в миф о скором появлении сверхинтеллекта. ИИ — это всего лишь нейросенсорные машины, и их ограничения будут всегда, как у любой другой нейросети, обученной по супервизированной схеме».
Заключение
Итак, исследования из Apple создают важный прецедент для переоценки возможности нынешних моделей рассуждений. Несмотря на их успехи в обработке языка и автоматической генерации текста, их реальный уровень логического мышления остается весьма ограниченным. Это позволяет считать, что путь к истинному искусственному общему интеллекту еще долг и требует кардинальных новых подходов в разработке и оценке моделей.