Google анонсировала Lumiere — нейронную сеть для генерации текстового видео. Модель машинного обучения создает реалистичные пятисекундные видеоролики.
Система может создавать видеоролики на основе текстового описания, исходного изображения или изменять только выбранные детали в готовом видеоролике. Код нейросети пока остается закрытым.
Lumiere основан на модели «диффузии пространства-времени» (STUNet, Space-Time-U-Net). Его главная особенность в том, что видео генерируется за один проход. Другие решения сначала создают ключевые кадры, а затем заполняют пространство между ними. Из-за этого часто возникают ошибки и несовпадение кадров.
Для обучения модели использовался датасет из 30 миллионов видеороликов с разрешением 128х128 пикселей, частотой 16 кадров в секунду и длительностью 5 секунд. Для каждого из них было подготовлено подробное текстовое описание происходящего. Обученная модель создает видеоролики с разрешением 1024х1024 пикселей.