Мы используем файлы cookie на этом сайте, чтобы улучшить ваш пользовательский опыт.
Пожалуйста, ознакомьтесь с Политикой конфиденциальности для получения более подробной информации.

распознавание речи
Whisper
15.10.2024

Whisper – это современная модель для автоматического распознавания речи (ASR) и перевода речи, описанная в статье Robust Speech Recognition via Large-Scale Weak Supervision Алека Рэдфорда и др. из OpenAI. Обученная на >5 миллионах часов аннотированных данных, Whisper демонстрирует высокую способность к обобщению на многие наборы данных и домены в условиях нулевой выборки.

 

Существует два вида модели Whisper: только англоязычная и многоязычная. Модели только для английского языка были обучены на задаче распознавания английской речи. Многоязычные модели обучались одновременно на распознавании многоязычной речи и переводе речи. При распознавании речи модель предсказывает транскрипцию на том же языке, что и аудиозапись. Для перевода речи модель предсказывает транскрипцию на язык, отличный от языка аудиозаписи.

 

Ссылка