VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech)
11.11.2024
VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) – это модель синтеза речи end-to-end, которая предсказывает форму речевого сигнала в зависимости от последовательности входного текста. Модель основана на параллельным методе сквозного преобразования текста в речь, который генерирует более естественный звук, чем существующие двухэтапные модели.