antony_w (antony_w) wrote,
antony_w
antony_w

Category:

Нейросеть Nvidia превращает аватары-фотографии в видео на видеоконференциях



Компания Nvidia представила новый продукт, построенный на глубоком обучении нейросетей — алгоритм Vid2Vid Cameo AI. Он разработан с целью упростить и усовершенствовать рабочие процессы в условиях карантина. Vid2Vid Cameo берет статичную фотографию пользователя и анимирует ее мимикой в режиме реального времени, заменяя получившимся синтетическим видео потоковую видеотрансляцию. Технология кратно сокращает нагрузку на каналы связи и упрощает подготовку к видеосовещаниям — внешний вид перестает быть важным, достаточно иметь в запасе пару презентабельных фотографий.

С пользовательской точки зрения Vid2Vid Cameo работает просто. Участник видеоконференции выбирает свою фотографию или изображение любого персонажа, загружает ее на платформу и подключается к видеоконференции. Нейросеть создает наиболее комфортные условия для удаленной работы — пользователь может общаться в пижаме с растрепанным волосами, но будет говорить от лица представительного бизнесмена в костюме, объяснили разработчики.

Алгоритмы Nvidia используют обычную веб-камеру для наблюдения за мимикой и эмоциями пользователя, а затем переносят входные данные в популярный сервис конференций, такой как Zoom или Skype. Трансляция проходит с минимальными задержками, так как передается не видеопоток, а только данные изменения мимики, которые «на лету» программно накладываются на аватар. За счет того, что обработкой изображений занимается нейросеть на облачной платформе Nvidia, пользователь может общаться с «имитацией видео» даже с плохим интернет-соединением — без лишних артефактов и помех.

«Многие люди имеют ограниченную пропускную способность интернета, но все же хотят беспрепятственно общаться по видеосвязи с друзьями и семьей. Помимо помощи им, лежащая в основе технология может также использоваться для помощи аниматорам, фоторедакторам и разработчикам игр», — объяснил соавтор разработки Минг-Ю Лю.

Vid2Vid Cameo требует всего двух элементов для создания реалистичной «говорящей головы»: один снимок внешнего вида человека и данные о том, как изображение должно быть анимировано. Модель была обучена с помощью набора данных из 180 тыс. высококачественных видео с разными пользователями. Сеть научилась определять 20 ключевых точек, которые можно использовать для моделирования движения лица — система идентифицирует любые изменения, включая движения глаз, рта, щек и носа.

Как сообщает SiliconAngle, Vid2Vid Cameo не будет самостоятельным продуктом, а войдет в комплексную платформу Nvidia Maxine. Последняя включает набор программных решений с поддержкой ИИ для модернизации удаленной работы и создания нового контента. Maxine уже поддерживает алгоритмы для общения в дополненной реальности, обработку естественного языка и ряд дополнительных функций, вроде голосовых помощников и систем для быстрой расшифровки звука в текст.

Tags: нейросеть
Subscribe

Posts from This Journal “нейросеть” Tag

promo antony_w august 17, 2014 11:48 18
Buy for 10 tokens
Есть блог, в котором написано много постов про роботов: ссылка И там есть несколько статей о замене рабочих мест человека роботами: Уже к 2018 году роботы отберут у человека часть профессий Рабский труд без зарплаты Армия роботов: зачем она нужна обильной людьми Поднебесной и кому может…
  • Post a new comment

    Error

    default userpic

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 1 comment