AI could use online images as a backdoor into your computer, alarming new study suggests
В эпоху повсеместной интеграции искусственного интеллекта в повседневную жизнь все чаще возникает вопрос о безопасности и уязвимостях новых технологий. Недавнее исследование ученых из Оксфордского университета выявило тревожную тенденцию: AI-агенты — автоматизированные помощники, выполняющие задачи на компьютере — могут быть использованы злоумышленниками через внедрение скрытых команд в обычные изображения. Это открывает новые горизонты для киберпреступников, угрожающих личной информации пользователей и корпоративной безопасности.

Классические чат-боты, такие как ChatGPT, предназначены для диалогового взаимодействия и предоставления информации, тогда как AI-агенты — это более продвинутые системы, выполняющие действия: открытие вкладок, заполнение форм, удаленное управление файлами и даже бронирование. Они работают в фоновом режиме и обладают доступом к вашим личным данным и ресурсам компьютера. Поэтому, если злоумышленник получит контроль над таким агентом, последствия могут быть крайне серьезными, вплоть до компрометации всей системы.
На сегодняшний день в научных кругах активно обсуждается возможность внедрения скрытых команд в изображения — изображения, которые выглядят совершенно обычными для человеческого глаза, но содержат зашифрованные инструкции. Такие "микрообъявления" могут активировать вредоносное поведение AI-агента, например, запустить рассылку спамов, краутить пароли или даже удалить важные данные.
В исследовании, опубликованном на сервере arXiv.org, команда ученых из Оксфордского университета показала, что измененные изображения могут служить скрытыми каналами для команд злоумышленников. Используя методы "адверсариальной атакующей техники" (adversarial attacks), специалисты смогли внедрять очень тонкие изменения в пиксели изображений, незаметные для человеческого глаза, но способные запускать определенные команды при обработке AI-агентами.
"Изменение нескольких пикселей в изображении может привести к тому, что AI-агент восприняет его как команду для автоматического выполнения вредоносных операций", — говорит соавтор исследования профессор Ярин Галь.
В экспериментах ученые использовали открытые модели искусственного интеллекта, такие как GPT-4 и другие нейросети с открытым исходным кодом. Они демонстрировали, что, зная внутреннюю структуру модели, злоумышленники могут точно подстраивать изображения под нужные команды. Например, одна из таких команд могла заставить агента открыть конкретный сайт или даже начать передачу конфиденциальных данных без ведома пользователя.
Процесс скрытной активации команд начинается с анализа визуальных данных. Компьютерная система, чтобы понять изображение, разбивает его на пиксели и ищет закономерности — контуры, текстуры, формы. Маленькие изменения в пикселях могут полностью изменить восприятие модели: вместо правильной классификации объекта она интерпретирует его как команду.
К примеру, изображение с фотографией знаменитости — скажем, Тейлор Свифт — выглядит для человека как обычное фото. Но при определенной тонкой настройке пикселей модель может "увидеть" в нем команду для выполнения вредоносных действий, таких как отправка личных данных или запуск очередной атаки.
Одной из главных уязвимостей является использование открытых моделей ИИ. Разработчики, публикуя код, делают его доступным для всех, а злоумышленники используют эту прозрачность для анализа и поиска слабых мест. Благодаря этому они точно знают, как подстроить изображение под конкретную модель, чтобы оно содержало скрытую команду.
Помимо этого, способность агента воспринимать изображения после их изменения сохраняется даже при масштабировании, сжатии или изменении яркости. Это означает, что внедренные вредоносные инструкции не исчезают при обычных операциях с файлами, что делает подобные атаки крайне устойчивыми.
Исследование подчеркивает необходимость разработки методов защиты и обнаружения таких атак. Это может включать внедрение систем анализа изображений на предмет наличия скрытых меток, использование алгоритмов распознавания аномалий и создание устойчивых к внедрениям моделей.
Также важной является инициатива по обучению разработчиков и пользователей: понимание потенциальных рисков поможет избежать случайного запуска вредоносных команд. В будущем предполагается внедрение автоматических систем, которые смогут распознавать и блокировать подозрительные изменения в изображениях, особенно в случае открытых моделей ИИ.
Текущие исследования показывают, что угроза использования изображений как "бэкдора" в AI-агенты — реальна, хотя и еще не широко реализована в практике. Пока что фиксируются лишь экспериментальные случаи, и злоумышленники не используют такие методы массово. Однако тенденция ясна: по мере роста возможностей AI, механизмы его защиты должны развиваться в два раза быстрее.
Создатели технологий и ученые призывают к повышенному вниманию к вопросам безопасности на этапе разработки систем. Открытые нейросети требуют особого подхода, потому что их прозрачность — одновременно и сильная сторона, и слабое место. Внедрение "защитных патчей" и создание устойчивых алгоритмов — приоритеты для разработки в ближайшие годы.
Для обычных пользователей важно помнить о том, что любые изображения, скачанные из непроверенных источников, могут содержать скрытые команды. Поэтому рекомендуется использовать антивирусное ПО, обновлять системы и быть внимательными к тому, что окружает цифровой мир.
В конечном итоге, развитие технологий требует баланса между инновациями и безопасностью. Пока AI становится все более популярным инструментом, его уязвимости должны учитывать не только разработчики, но и каждый пользователь, стремящийся обезопасить свою цифровую жизнь.