Мы выкарыстоўваем файлы cookie на гэтым сайце для паляпшэння вашага вопыту карыстання.
Для больш падрабязнай інфармацыі азнаёмцеся з Палітыка канфідэнцыяльнасці

Google анансаваў нейрасетку Lumiere
01.02.2024

Google анансаваў нейрасетку Lumiere для генерацыі відэа па тэкставым апісанні. Мадэль машыннага навучання стварае рэалістычныя ролікі даўжынёю ў пяць секунд.

Сістэма можа ствараць ролікі па тэкставым апісанні, зыходнаму малюнку або змяняць у гатовым відэа толькі выбраныя дэталі. Код нейрасеткі пакуль застаецца закрытым.

У аснове Lumiere выкарыстоўваецца мадэль “прасторава-часавай дыфузіі” (STUNet, Space-Time-U-Net). Галоўная яе асаблівасць — відэа генерыруецца за адзін праход. Іншыя рашэнні спачатку ствараюць ключавыя кадры, а потым запаўняюць прастору паміж імі. З-за гэтага часта ўзнікаюць памылкі і неўзгадненне кадраў.

Для навучання мадэлі выкарыстоўвалі набор даных з 30 млн відэаролікаў у разрознасці 128×128 пікселяў, частатой 16 кадраў у секунду і працягласцю ў 5 секунд. Да кожнага з іх падрыхтавалі дэталёвае тэкставае апісанне таго, што адбываецца. Навучаная мадэль стварае ролікі з разрознасцю 1024×1024 пікселяў.

Крыніца