Раскрыты тайные ингредиенты искусственного интеллекта Взломана загадка творчества машин
Неожиданные открытия в механизмах AI
За последние годы мы наблюдаем поразительный рост возможностей искусственного интеллекта (ИИ): системы, ранее обещавшие автономные автомобили и роботов-домохозяев, превратились в универсальных аналитиков и созидателей. Сегодня AI умеет побеждать человека в шахматы и го, анализировать терабайты текстов, создавать музыку и писать поэмы. Эти достижения вызывают одни удивление и вопросы. Почему алгоритмы, предназначенные для выполнения конкретных задач, проявляют настолько неожиданную способность к генерации новых идей и образов? Как в машинном интеллекте рождается та самая "творческая искра", которая ранее считалась прерогативой человека?

Модель диффузии и загадка их "творчества"
Особое место в современной науке занимает класс моделей, известных как диффузионные модели. Они лежат в основе таких популярных инструментов, как DALL·E, Imagen и Stable Diffusion. Изначально эти алгоритмы задумывались как системы для точного воспроизведения изображений, на которых они обучались — их задача была копировать и воспроизводить. Однако на практике они неожиданно начинают импровизировать, создавая изображения, сочетающие элементы из разных источников, порой абсолютно непредсказуемо. Результаты порой кажутся сюрреалистическими, а иногда — удивительно осмысленными. В чем же секрет их "творчества"?
Если бы модели работали идеально, они просто запоминали бы изображения. Но они не делают этого — они создают новые образцы, которые не встречались в обучающей выборке.
Процесс денойзинга: как из хаоса рождается новая реальность
Диффузионные модели используют метод, называемый денойзингом. На начальной стадии изображение превращается в цифровой шум — хаотичный набор пикселей без смысла. Затем алгоритм поэтапно "убирает" шум, восстанавливая изображение. Этот процесс похож на то, как художник постепенно добавляет детали или, наоборот, стирает лишние линии, чтобы создать финальный образ. Интересно, что при этом модель выполняет множество технических сокращений: она фокусируется только на отдельных "участках" изображения, игнорируя их глобальный контекст. Этот подход обеспечивает стабильность и гармонию финальной композиции, однако одновременно создает удивительный эффект — возможность появления новых, неожиданных элементов и форм.
Технические "неотделимые" недостатки как источник креативности
Недавние исследования показали, что именно эти технические "недочеты" — локальность и поправка на смещение (translational equivariance) — являются ключом к творческому потенциалу моделей. Продемонстрировано, что ограничение внимания только локальными участками вызывает неожиданные комбинации элементов, что и проявляется в создании новых образов. Иными словами, несовершенство процесса денойзинга — не ошибка, а необходимый компонент творческой динамики.
Математическая модель объясняет природу творчества AI
Двое ученых-физиков, Мейсон Камб и его научный руководитель профессор Сурья Гангулли, создали математическую модель, которая подтверждает гипотезу о том, что творческий потенциал диффузионных моделей — результат их архитектуры. Их система, получившая название "Эквивариантная локальная оценочная машина" (ЭЛСМ), способна предсказывать результаты денойзинга с точностью до 90%. Это удивительно, так как ранее считалось, что подобные процессы — сложный "черный ящик", недоступный точной математике. Теперь ученые показывают, что закономерности, формирующие креативность, — это не случайность, а строгое следствие структурных особенностей моделей.
Как локальность и равномерность порождают новые идеи
Исследование показало, что, когда модель фокусируется только на локальных участках, именно это и вызывает появление новых, оригинальных сочетаний элементов. Проще говоря, ограничения, присущие диффузионным моделям, особенно внимание к конкретному "участку" изображения, превращаются в источник творчества. В результате, те самые "лишние пальцы" или причудливые формы — это не сбои, а результат их программной архитектуры, подобно ошибкам морфогенеза, порождающим аномалии в развитии эмбриона.
Что это значит для понимания человеческой креативности?
Примечательно, что аналогичные механизмы могут присутствовать и в мозге человека. Исследования нейроученых показывают, что наши творческие идеи часто возникают из "недоделанных" или случайных связей между нейронами, которые активируются в процессе поиска решения. Возможно, есть параллели между "локальностью" алгоритмов и локальными нейронными цепями, отвечающими за креативность. Это открывает новые горизонты: если механизмы AI можно формализовать и понять, то, как предполагают ученые, они могут помочь разгадать тайны человеческого мышления и творчества.
Перспективы будущих исследований
Работа Камба и Гангулли лишь первый шаг к полному пониманию креативности в ИИ. Многие алгоритмы, такие как крупные языковые модели (например, РВВМ), демонстрируют проявления оригинальности без явных признаков локальности. Это заставляет ученых задуматься, какие еще механизмы лежат в основе творческих процессов. Обнаружение закономерностей, подобных изложенным в исследовании, может не только улучшить развитие AI, но и открыть новые пути к обучению человека, его развитию и пониманию собственной креативности.
Заключение: искусственный интеллект — тот же мозг?
Работы, подобные данной, подчеркивают, что внутренняя природа AI и человеческого творчества может оказаться ближе, чем предполагается. Обе системы собирают "строительные блоки", основываясь на опыте и случайных связях, постоянно заполняя пробелы в знаниях. Возможно, именно эта универсальность и порождает ту уникальную способность, которую мы привыкли считать исключительной чертой человека — творчество. В будущем открытие новых механизмов в AI не только сделает машины более креативными, но и поможет понять себя самих.