
Представляем DeepFloyd IF, новую современную модель преобразования текста в изображение с открытым исходным кодом, обладающую высоким фотореализмом и пониманием языка.
Особенности тула:
🗝 глубокое понимание текстовых подсказок: в конвейере генерации используется языковая модель T5-XXL-1.1;
🗝 применение текстового описания к изображениям: DeepFloyd IF генерирует связный и понятный текст вместе с объектами разных свойств, которые появляются в разных пространственных отношениях;
🗝 высокая степень фотореализма:
это свойство отражено впечатляющей оценкой FID для нулевого кадра, равной 6,66 в наборе данных COCO;
🗝 возможность создавать изображения с нестандартными пропорциями, вертикальными или горизонтальными, а также стандартным квадратным форматом;
🗝 преобразование изображений из нулевого кадра в изображение.