VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech)

Мадэлі ШІ / VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech)

AI Platform

распазнаванне маўлення

11.11.2024

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) – гэта мадэль сінтэзу маўлення end-to-end, якая прадказвае форму маўленчага сігналу ў залежнасці ад паслядоўнасці ўваходнага тэксту. Мадэль заснавана на паралельным метадзе скразнога пераўтварэння тэксту ў маўленне, які генерыруе больш натуральны гук, чым існуючыя двухэтапныя мадэлі.

Спасылка