Whisper | BELAI

распазнаванне маўлення

Whisper

15.10.2024

Whisper – гэта сучасная мадэль для аўтаматычнага распазнавання маўлення (ASR) і перакладу маўлення, апісаная ў артыкуле Robust Speech Recognition via Large-Scale Weak Supervision Алека Рэдфарда і інш. з OpenAI. Навучаная на >5 мільёнах гадзін анатаваных даных, Whisper дэманструе высокую здольнасць да абагульнення на многія наборы даных і дамены ва ўмовах нулявой выбаркі.

Існуе два віды мадэлі Whisper: толькі англамоўная і шматмоўная. Мадэлі толькі для англійскай мовы былі навучаны на задачы распазнання англійскай мовы. Шматмоўныя мадэлі навучаліся адначасова на распазнаванні шматмоўнага маўлення і перакладзе маўлення. Пры распазнаванні маўлення мадэль прадказвае транскрыпцыю на той жа мове, што і аўдыязапіс. Для перакладу маўлення мадэль прадказвае транскрыпцыю на мову, адрозную ад мовы аўдыязапісу.

Спасылка