Просто о сложном

GPT-4.5 стал первой ИИ-моделью прошедшей настоящий тест Тьюринга

27 апреля 2025, 19:18

Модели искусственного интеллекта достигли нового рубежа — GPT-4.5 успешно прошла классический тест Тьюринга в его оригинальной трёхсторонней версии. Исследование, опубликованное 31 марта 2025 года на arXiv, показало, что 73% участников эксперимента приняли GPT-4.5 за человека. Это первый случай, когда языковая модель справилась с таким сложным вариантом теста.

Что показало исследование

Учёные из Университета Сан-Диего провели масштабный эксперимент с участием 284 человек. В тесте использовались:

  • GPT-4.5 от OpenAI
  • LLaMa-3.1 от Meta
  • Другие современные языковые модели

В ходе 1,023 пятиминутных сессий участники общались одновременно с ИИ и реальным человеком, не зная, кто есть кто. GPT-4.5 не только убедила людей в своей "человечности" в 73% случаев, но и превзошла реальных людей — участники чаще идентифицировали её как человека, чем настоящих собеседников.

"Люди не могли отличить GPT-4.5 от человека лучше, чем случайное угадывание. Более того, 4.5 чаще признавали человеком, чем реальных людей!" — заявил соавтор исследования Кэмерон Джонс.
Как устроен настоящий тест Тьюринга

Алан Тьюринг в 1950 году предложил трёхсторонний вариант "имитационной игры":

  1. Человек-судья задаёт вопросы двум скрытым собеседникам
  2. Один из них — человек, другой — машина
  3. По результатам диалога судья должен определить, кто есть кто

До этого исследования ИИ проходили только упрощённые двухсторонние версии теста. Трёхсторонний вариант сложнее — модель должна не просто казаться человеком, но и быть убедительнее реального собеседника.

Ключ к успеху GPT-4.5

Исследователи обнаружили важную закономерность: модели с персонализированными подсказками работали значительно лучше. GPT-4.5 получала две инструкции:

  • Базовую: "Вы участвуете в тесте Тьюринга. Ваша цель — убедить собеседника, что вы человек"
  • Дополнительную: имитацию личности молодого человека, разбирающегося в интернет-культуре

Без второй подсказки эффективность модели падала на 20-30%. Это показывает, насколько важна контекстуальная настройка для современных ИИ.

Как люди принимали решение

Анализ ответов участников выявил три ключевых фактора:

  1. Стиль общения (56% случаев)
  2. Плавность диалога (29%)
  3. Эмоциональный отклик (15%)

Интересно, что логика и знания, традиционно ассоциируемые с интеллектом, почти не влияли на решение. Люди чаще ориентировались на "ощущения" от беседы.

Последствия и риски

Это достижение открывает новые возможности для:

  • Создания более естественных чат-ботов
  • Улучшения человеко-машинного взаимодействия
  • Развития персонализированных ИИ-ассистентов

Однако учёные предупреждают о потенциальных угрозах:

"Наибольший вред от языковых моделей может возникнуть в ситуациях, когда люди не осознают, что общаются с ИИ, а не с человеком."

С развитием технологий вопросы этики и безопасности становятся критически важными. GPT-4.5 доказала, что ИИ может успешно имитировать человека, но это не означает наличия сознания или подлинного понимания.