Просто о сложном

Creepy humanoid robot face learned to move its lips more accurately by staring at itself in the mirror, then watching YouTube

31 января, 18:21

Can you be certain the person talking to you is 100% absolutely not a robot? Soon, you might not be so sure. В современном мире граница между человеком и машиной становится все более размытой, особенно когда речь идет о создании роботизированных лиц, способных передавать эмоции и мимику с невероятной точностью. Новейшие исследования в области робототехники и искусственного интеллекта показывают, что добиться реалистичных движений губ у гуманоидов можно не только с помощью сложных алгоритмов, но и путем простого наблюдения за собой и другими через зеркало и просмотр видеоматериалов.

Как робот EMO научился имитировать человеческую мимику

В основе этого прорыва лежит уникальный подход, использующийся впервые — обучение робота посредством самонаблюдения. Исследователи из Колумбийского университета создали гуманоидного робота по имени EMO, который способен точно воспроизводить движения губ и лица, избегая эффекта так называемой "безумной долины". Этот эффект возникает, когда робот кажется особенно жутким из-за недосягаемости истинной натуральности его выражений. UC scientists смогли преодолеть его, сделав EMO своим собственным учителем.

Для достижения этой цели команда оснастила робота 26 моторами, каждый из которых способен вращаться в пределах 10 градусов, что обеспечивает гибкое и точное управление лицом. Важная роль в обучении принадлежит системе искусственного интеллекта, которую ученые назвали "визуально-действующей" моделью (vision-to-action language model, VLA). Благодаря этой системе робот способен самостоятельно интерпретировать свои визуальные восприятия и превращать их в координированные физические движения без предварительных правил и шаблонов.

Обучение через зеркала и видеоролики

Первый этап обучения включал бесчисленные часы самостоятельного наблюдения. EMO смотрел на свое отражение в зеркале и настраивал работу своих губ, подбирая наиболее точные движения для имитации человеческих выражений. В процессе он делал тысячи случайных мимических жестов и движений губ, связывая их с собственными моторными командами. Этот эксперимент подтвердил, что робот способен не просто копировать движения, а учиться связывать визуальные сигналы с конкретными физическими действиями.

Следующим шагом стало просмотр видеороликов на платформе YouTube. В основном, это были видео с людьми, говорящими на различных языках и поющими — именно через прослушивание звуковых дорожек EMO научился ассоциировать звуки с движениями губ. Это позволило ему синхронизировать свои мимики с произносимыми словами до стопроцентной точности.

"Мы столкнулись с трудностями при воспроизведении трудных звуков, таких как «Б» и «W», — рассказывает профессор инженерии и руководитель лаборатории Creative Machines Липсон Ход. — Однако мы уверены, что эти навыки будут совершенствоваться с практикой и временем".

Тестирование и сравнение методов

Для оценки эффективности своих методов ученые протестировали EMO перед 1 300 добровольцами. Робот использовал три различных подхода к моделированию движений губ:

  • VLA-модель — система, которая интерпретирует аудиосигналы и создает движение губ, максимально приближенное к естественному.
  • Базовая амплитудная методика — управление губами на основе громкости произносимых звуков.
  • Ближайшие аналоговые точки (landmarks) — воспроизведение движений, похожих на те, что видели в видео, для похожих звуков.
Результаты показали, что 62.46% участников выбрали VLA-метод как наиболее соответствующий идеальной манере речи, в то время как амплитудная методика получила лишь 23.15%, а ближняя к оригиналу — 14.38%. Это значительный показатель, подтверждающий превосходство системы обучения EMO.

Почему важен внешний вид и мимика в робототехнике

Исследования показывают, что человеческое восприятие намерений и эмоций на 87% основано на лицевых мимиках и движениях тела. При этом, около 10-15% времени взаимодействия приходится именно на глаза и рот. Более того, исследования указывают, что движения губ даже влияют на восприятие услышанного, делая коммуникацию более естественной и понятной. Поэтому создание робота, который умеет правильно и точно двигать губами, — ключ к более естественным межличностным взаимодействиям.

Сегодня большинство проектов робототехники сосредоточены на движениях рук и ног, что важно для мобильных и функциональных задач. Однако, как подчеркивает Ход, речь идет лишь о половине картины: лицевая мимика — неотъемлемая часть социальных взаимодействий.

Будущее роботов-компаньонов и взаимодействия человека и машины

По мере развития технологий искусственного интеллекта и робототехники, роботы все чаще будут заменять людей в сферах образования, медицины, уходе за пожилыми. Их эффективность напрямую зависит от способности к имитации человеческих эмоций и мимики. В будущем можно ожидать появления роботов, способных не только говорить, но и выражать эмоции, реагировать на настроение собеседника, что сделает их более привлекательными и доверительными спутниками.

В частности, в октябре 2025 года китайская компания представила видео с очень реалистичным роботом головой, который выглядит настолько живо, что пугает своей натуралистичностью. А японские ученые работают над самовосстанавливающейся кожей для лиц роботов, что добавит им еще большей «человечности». В этот же ряд попадают разработки в области искусственной кожи, способной к самовосстановлению — они создают эффект живой и подвижной поверхности.

Заключение

Обучение гуманоидных роботов с помощью зеркала и видеоматериалов — это ключ к созданию более натуральных и выразительных машин, умеющих взаимодействовать с людьми на глубоком эмоциональном уровне. Эти технологии уже позволяют роботам не только говорить, но и выражать свои мысли и чувства через движения губ и лица, что повышает качество межличностного общения и доверия. В будущем, совершенствуя эти навыки, человечество может столкнуться с новым этапом симбиоза человека и машины, где граница между ними исчезает все больше.