Разработана технология, позволяющая превратить аудиозапись в полноценное видео говорящего человека.

19 июл, 2017. \\ Наука и техника \\ Разработана технология, позволяющая превратить аудиозапись в полноценное видео говорящего человека

Кадры видеоИсследователи из Лаборатории обработки графики и изображений (Graphics and Image Laboratory) Вашингтонского университета разработали ряд программных алгоритмов, позволяющих преобразовать аудиозаписи в реалистичное видео, на котором человек синхронно двигает губами в соответствии с произносимыми словами и фразами. В основе созданной системы лежит нейронная сеть, предварительно обученная на примерах видео с записями человека, который говорит на любую тему.

Кадры видео

Исследователи из Лаборатории обработки графики и изображений (Graphics and Image Laboratory) Вашингтонского университета разработали ряд программных алгоритмов, позволяющих преобразовать аудиозаписи в реалистичное видео, на котором человек синхронно двигает губами в соответствии с произносимыми словами и фразами. В основе созданной системы лежит нейронная сеть, предварительно обученная на примерах видео с записями человека, который говорит на любую тему.

Более детальная информация о системе преобразования аудио в видео будет представлена на конференции по компьютерной графике 2017 SIGGRAPH. А в качестве примера исследователи подготовили весьма реалистичные ролики, на которых бывший президент США Барак Обама рассуждает на тему терроризма, отцовства, создания новых рабочих мест и т.п. Эти видеоролики были построены на базе существующих аудиозаписей, а для обучения нейронной сети использовались многие часы записей публичных выступлений Барака Обамы.

В настоящее время нейронная сеть способна обучиться имитации речи только одного конкретного человека. Тем не менее, использование технологий искусственного интеллекта позволяет избежать трудностей, возникающих при использовании традиционных конверсионных технологий. Ведь для работы традиционных технологий используются студийные записи множества разных людей, повторяющих одни и те же фразы, что делается для определения корреляции отдельных произносимых звуков с формой, положением губ и других частей лица человека.

Процесс преобразования

Такая технология преобразования речи в реалистичное видео может найти применение в различных системах конференц-связи для улучшения их работы, считают исследователи. Ведь для передачи только аудио-сигнала требуется гораздо более узкая полоса пропускания коммуникационного канала, нежели для одновременной передачи аудио и видео. Помимо этого, новая технология может обеспечить общение в режиме реального времени людей с виртуальными персонажами компьютерных игр или исторических реконструкций.

Появление системы, обеспечивающей столь реалистичный результат, сразу же заставляет задуматься о возможностях в области фальсификации, которые она предоставляет. Однако, уверяют исследователи, применив приблизительно такой же подход, т.е. "скормив" обученной нейронной сети видео для анализа, можно без труда выяснить, что это такое, реальная видеосъемка или ролик, произведенный компьютером?



По материалам dailytechinfo.org