VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech)

OpenAI

AI Platform

распознавание речи

11.11.2024

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) – это модель синтеза речи end-to-end, которая предсказывает форму речевого сигнала в зависимости от последовательности входного текста. Модель основана на параллельным методе сквозного преобразования текста в речь, который генерирует более естественный звук, чем существующие двухэтапные модели.

Ссылка