VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech)
11.11.2024
VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) – гэта мадэль сінтэзу маўлення end-to-end, якая прадказвае форму маўленчага сігналу ў залежнасці ад паслядоўнасці ўваходнага тэксту. Мадэль заснавана на паралельным метадзе скразнога пераўтварэння тэксту ў маўленне, які генерыруе больш натуральны гук, чым існуючыя двухэтапныя мадэлі.