Разработанная исследователями Google система VLOGGER AI позволяет создавать реалистичные видеоролики с разговаривающими и двигающимися людьми на основе одного неподвижного изображения и аудиоклипа в качестве исходных данных.
Как рассказали Энрик Корона и его соавторы в статье "VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis", технология опирается на пару моделей машинного обучения для синтеза реалистичных видеоматериалов. Первая модель предсказывает движения тела, мимику и даже моргания на основе аудио. Вторая модель берет предсказанные движения тела с первого этапа и использует модель временной диффузии для итеративного уточнения каждого кадра, чтобы создать гладкое, реалистичное видео говорящего человека:

В сочетании с генеративным ИИ и переводом на иностранные языки VLOGGER находит очевидное применение в создании контента и общении. Разумеется, есть опасения по поводу неправильного использования этой технологии, например, для создания глубоких подделок.
Понравилась новость? Тогда не забудь оставить свой комментарий.
А так же, добавь наш сайт в закладки (нажми Ctrl+D), не теряй нас.
Комментарии