
Emu Video — это простой метод генерации текста в видео на основе моделей распространения, который разбивает генерацию на основе текстовой подсказки и сгенерированного изображения.
Факторизованная генерация позволяет эффективно обучать модели генерации высококачественного видео. Для этого подхода требуется всего две модели диффузии для создания 512 пикселей 4-секундного видео со скоростью 16 кадров в секунду.
Emu Edit — это многозадачная модель редактирования изображений, которая устанавливает новый уровень искусства редактирования изображений на основе инструкций. Архитектура Emu Edit адаптирована для многозадачного обучения ряду задач, таких как редактирование в зависимости от региона, редактирование произвольной формы и задачи компьютерного зрения, такие как обнаружение и сегментация.