Компьютер открывает рот и глаголет устами
По данным статистики, среди всех СМИ больше всего россияне доверяют телевидению: около 50% зрителей верят своим глазам. Вскоре количество «доверчивых» может заметно уменьшиться, ведь с помощью изобретения исследователей из легендарного Массачусетского технологического института (Massachusetts Institute of Technology — MIT) в уста говорящих с телеэкрана можно вложить всё, что угодно.
Пресса уже заговорила об опасности разработки, ведь теперь можно фальсифицировать теленовости, рекламные ролики, политические заявления и тому подобное.
Если вдуматься, то так и есть: допустим, вышеупомянутые 50% увидят по телевизору своего президента, который несёт полнейшую околесицу или объявляет войну — последствия могут быть серьёзней, чем от радиопостановки «Войны миров».
А произошло вот что. Томасо Поггио Tomaso Poggio) и его помощник, аспирант Тони Эззат (Tony F. Ezzat), разработали программное обеспечение, с помощью которого можно весьма реалистично анимировать видеоизображение человеческих лиц, то есть человек на экране будет артикулировать в соответствии со словами, которые он мог никогда и не произносить.
Всё, что нужно для полноты эффекта — пригласить талантливого пародиста-звукоимитатора.
Вот здесь читатели, скорее всего, и скажут: «ну и что», «ничего нового», «никакое это не изобретение», «да такому ПО сто лет в обед» и подобное тому. Ошибаетесь, дамы и господа: согласно данным всё того же MIT, «до сих пор искусственно оживляемые человеческие лица выглядели судорожными и нереалистичными», а все, кто видел работу ПО Поггио и Эззата, не смогли отличить «поделку» от настоящего видео.
У изобретения MIT?овцев пока нет внятного названия. Для демонстрации плодов своего труда они использовали лицо реальной девушки, которую, судя по всему, зовут Мэри.
Может, её зовут и по-другому, но то, что у изобретателей получилось, называется Mary 101.
Восемь минут речи этой девушки исследователи отсняли на видео, получив тем самым 15 тысяч цифровых снимков движений её лица. Затем всё это было загружено в компьютер, обработано, артикуляция сопоставлена с произносимыми словами и готово.
Кстати, текст, который должна произнести говорящая голова, просто-напросто набирается на клавиатуре. Понятное дело, изложено несколько упрощённо, но смысл именно такой.
По поводу озвучивания изобретатели уже сотрудничают с коллегами из «языковой» группы лаборатории MIT (Spoken Language Systems Group in the MIT Laboratory). Как идут дела, пока не сообщается.
Томасо Поггио собственной персоной.
У разработчиков, разумеется, исключительно благие цели — ещё бы, их работа финансируется не только MIT?ом, но и National Science Foundation.
По словам Поггио, их изобретение может помочь в будущем «очеловечить» компьютерный интерфейс и те же домофоны-видеофоны, будет полезно в речевой терапии, в обучении иностранным языкам и не только, найдётся применение в анимации и кино, в индустрии развлечений и так далее.
Одно из возможных применений — это и дубляж фильмов. Например, снялась бы проблема, известная, как «синдром японского фильма» (Japanese film syndrome), когда губы японских актёров всё ещё двигаются, хотя перевод в кратких английских фразах уже завершился.
Теперь пора сообщить, что работа, на самом деле, находится в начальной стадии, поэтому Поггио и Эззат просят не смотреть на Mary 101 слишком долго: когда лицо произносит более двух предложений, становится ясно, что дело здесь нечисто — движения рта выглядят весьма реалистично, но вот глаза и лоб остаются неподвижными. Работы над этим вовсю ведутся, разработчики говорят, что это вопрос времени.
Довольно занятно описывается значение этого изобретения. Так, сами MIT?овцы фантазируют по-американски: «вообразите себе будущее, в котором знаменитость, например, Майкл Джордан, сможет продать свой образ и право на создание своей виртуальной видеоверсии для рекламы или других целей».
Немецкий Spiegel смотрит на это дело несколько иначе, примеряя изобретение на Гельмута Коля и Герхарда Шрёдера, вспоминая скандальную видеоплёнку с Усамой бен Ладеном, и вообще называет статью «Как изображения учатся лгать» («Wie Bilder lugen lernen»).
Spiegel предупреждает: если мы сможем делать так, что люди будут говорить то, чего они на самом деле не говорили — последствия могут быть катастрофическими. В ненадёжных руках такая техника может стать чрезвычайно опасным инструментом.
Всё это так, мы согласны, но с другой стороны, сказав что-нибудь не то, можно будет и оправдаться, дескать, это не я, это всё компьютер.
Устами младенца глаголет истина. Ребенок говорит Путину: \