GPT-4.5 стал первой ИИ-моделью прошедшей настоящий тест Тьюринга

27 апреля 2025, 19:18

искусственный интеллект тест Тьюринга GPT-4.5 научное исследование языковые модели

Модели искусственного интеллекта достигли нового рубежа — GPT-4.5 успешно прошла классический тест Тьюринга в его оригинальной трёхсторонней версии. Исследование, опубликованное 31 марта 2025 года на arXiv, показало, что 73% участников эксперимента приняли GPT-4.5 за человека. Это первый случай, когда языковая модель справилась с таким сложным вариантом теста.

Что показало исследование

Учёные из Университета Сан-Диего провели масштабный эксперимент с участием 284 человек. В тесте использовались:

GPT-4.5 от OpenAI
LLaMa-3.1 от Meta
Другие современные языковые модели

В ходе 1,023 пятиминутных сессий участники общались одновременно с ИИ и реальным человеком, не зная, кто есть кто. GPT-4.5 не только убедила людей в своей "человечности" в 73% случаев, но и превзошла реальных людей — участники чаще идентифицировали её как человека, чем настоящих собеседников.

"Люди не могли отличить GPT-4.5 от человека лучше, чем случайное угадывание. Более того, 4.5 чаще признавали человеком, чем реальных людей!" — заявил соавтор исследования Кэмерон Джонс.

Как устроен настоящий тест Тьюринга

Алан Тьюринг в 1950 году предложил трёхсторонний вариант "имитационной игры":

Человек-судья задаёт вопросы двум скрытым собеседникам
Один из них — человек, другой — машина
По результатам диалога судья должен определить, кто есть кто

До этого исследования ИИ проходили только упрощённые двухсторонние версии теста. Трёхсторонний вариант сложнее — модель должна не просто казаться человеком, но и быть убедительнее реального собеседника.

Ключ к успеху GPT-4.5

Исследователи обнаружили важную закономерность: модели с персонализированными подсказками работали значительно лучше. GPT-4.5 получала две инструкции:

Базовую: "Вы участвуете в тесте Тьюринга. Ваша цель — убедить собеседника, что вы человек"
Дополнительную: имитацию личности молодого человека, разбирающегося в интернет-культуре

Без второй подсказки эффективность модели падала на 20-30%. Это показывает, насколько важна контекстуальная настройка для современных ИИ.

Как люди принимали решение

Анализ ответов участников выявил три ключевых фактора:

Стиль общения (56% случаев)
Плавность диалога (29%)
Эмоциональный отклик (15%)

Интересно, что логика и знания, традиционно ассоциируемые с интеллектом, почти не влияли на решение. Люди чаще ориентировались на "ощущения" от беседы.

Последствия и риски

Это достижение открывает новые возможности для:

Создания более естественных чат-ботов
Улучшения человеко-машинного взаимодействия
Развития персонализированных ИИ-ассистентов

Однако учёные предупреждают о потенциальных угрозах:

"Наибольший вред от языковых моделей может возникнуть в ситуациях, когда люди не осознают, что общаются с ИИ, а не с человеком."

С развитием технологий вопросы этики и безопасности становятся критически важными. GPT-4.5 доказала, что ИИ может успешно имитировать человека, но это не означает наличия сознания или подлинного понимания.

Просто о сложном

GPT-4.5 стал первой ИИ-моделью прошедшей настоящий тест Тьюринга

Рекомендуем к прочтению

'Completely new and totally unexpected finding': Iron deficiency in pregnancy can cause 'male' mice to develop female organs

Древнеримские близнецы из Хорватии могли погибнуть из-за отравления свинцом

Климатические бури внутри страны: почему засухи возвращаются с поразительной регулярностью