Искусственный голос стал незаметен для уха практически любого человека
Многие из нас уже сталкивались с искусственным интеллектом (ИИ) через голосовых ассистентов таких как Сирия или Алекса, чья монотонность и механическая речь создавали ощущение, что отличить ИИ-голос от человеческого практически невозможно. Однако, поначалу казалось, что это ограничивается лишь автоматическими ответчиками и простыми голосами, созданными без особых усилий. Сегодня же научные исследования доказывают, что границы между естественной речью человека и искусственно созданной значительно размыты, а иногда и полностью исчезают.

Недавние научные открытия указывают на драматические изменения
В статье, опубликованной 24 сентября в журнале PLoS One, ученые провели эксперимент, который показал, что люди уже не могут точно определить, какой голос — реальный, а какой — результат работы ИИ. Исследование заключалось в прослушивании 80 образцов — 40 голосов, созданных искусственным интеллектом, и 40 — настоящих человеческих голосов. Участникам эксперимента предлагалось определить, какой голос — человеческий, а какой — ИИ-сгенерированный. Результаты показали, что разница становится практически незаметной: только около 41% голосов, созданных «с нуля», ошибочно принимались за человеческие, а средний уровень правильных ответов составлял 59% — что чуть выше случайной догадки.
Глубокие подделки и их влияние на восприятие
Что же произошло при использовании «глубоких подделок» — голосовых копий, обученных на реальных записях? В этом случае ситуация кардинально меняется. В ходе эксперимента участники ошибочно принимали около 58% таких голосов за человеческие. Иными словами, большинство подделок оказалось настолько реалистичными, что универсальный восприимчивый слух уже не способен отличить их от настоящих голосов.
Это приводит к тому, что различия между настоящими и сгенерированными голосами практически исчезли. Только около 62% настоящих человеческих голосов были правильно идентифицированы, в то время как вероятность ошибочного определения глубинных фейков достигала 58%. Эти цифры свидетельствуют о серьезном сдвиге в возможностях аудио-технологий и вызывают обеспокоенность в области безопасности и этики.
Технологии и методы создания реалистичных голосов
Современные системы синтеза речи используют передовые методы машинного обучения, такие как генеративные состязательные сети (GAN) и трансформеры, которые позволяют создавать голосовые образцы с поразительной точностью. Для тренировок зачастую хватает всего нескольких минут записи голоса реального человека — иногда даже 4 минуты — чтобы обучить ИИ воспроизводить его с высокой точностью. Использование коммерческих программных решений делает такие технологии доступными даже для менее подготовленных злоумышленников. Не требуется больших затрат, чтобы создать качественный голосовой дипфейк.
Результаты исследований показывают, что даже простое обучение с применением минимальных данных дает впечатляющие результаты, что говорит о необходимости срочных мер по регулированию и контролю подобных технологий.
Последствия для безопасности и этики
Использование высокореалистичных голосовых дипфейков в преступных целях — уже не гипотеза, а реальность. Известен случай 9 июля, когда Шэрон Брайтвелл (Sharon Brightwell) была обманута на сумму 15 000 долларов. Её убедительно подделали голос дочери, которая, якобы, попала в аварию и нуждается в деньгах для юридической защиты. Женщина до последнего была уверена, что говорит с настоящей дочерью, ведь голосовая модель звучала так реалистично, что отличить было практически невозможно.
Подделки голосов могут также использоваться для дискредитации публичных фигур или распространения ложных заявлений. Недавний пример — создание AI-копии голоса премьер-министра Квинсленда Стевена Майлза, которая использовалась для попытки продать фальшивый инвестиционный проект, например, Bitcoin. Такие кейсы не только подрывают доверие к информации, но и создают новые угрозы в сфере национальной безопасности и социальной стабильности.
Текущий уровень технологии и её доступность
Стоит подчеркнуть, что в исследованиях использовались относительно простые средства — коммерчески доступные программы, тренированные на малом числе голосовых данных. Это говорит о высокой доступности технологий: создатель даже с минимальными навыками может быстро воспроизвести голос известной личности или близкого человека. «Процесс требует минимальных затрат времени и денег, — говорит один из авторов исследования, Надин Лаван, — и открывает путь для массового распространения подделок».
Будущие возможности и вызовы
Несмотря на тревожные аспекты, развитие искусственного интеллекта в области синтеза речи открывает и новые перспективы. Например, в области доступности, где качественные синтетические голоса могут помочь людям с нарушениями речи или обеспечить перевод в реальном времени. Образовательные платформы и медиа могут получить новые инструменты для создания более увлекательных и реалистичных материалов.
«Технологии растут так быстро, что необходимо создавать жесткие нормативы и системы проверки подлинности голосов, чтобы не дать злоумышленникам воспользоваться достигнутым прогрессом» — отмечают эксперты в области кибербезопасности.
Заключение: что ждать дальше?
Технологии синтеза речи продолжат развиваться, и, скорее всего, качество искусственных голосов станет ещё более безупречным. В свете этого, важнейшей задачей становится разработка методов идентификации и аутентификации, которые смогут противостоять подделкам. В конечном итоге, доверие к аудио-информации, подкреплённое научными исследованиями, должно стать нашей приоритетной задачей в эпоху цифровых технологий.
Научные работы, эксперименты и кейсы доказывают, что граница между реальной и искусственной речью исчезает. Важен не только технологический прогресс, но и этическое регулирование, контроль и развитие методов обнаружения дипфейков, чтобы сохранить безопасность и правду в эпоху искусственного голоса.