
Whisper – это современная модель для автоматического распознавания речи (ASR) и перевода речи, описанная в статье Robust Speech Recognition via Large-Scale Weak Supervision Алека Рэдфорда и др. из OpenAI. Обученная на >5 миллионах часов аннотированных данных, Whisper демонстрирует высокую способность к обобщению на многие наборы данных и домены в условиях нулевой выборки.
Существует два вида модели Whisper: только англоязычная и многоязычная. Модели только для английского языка были обучены на задаче распознавания английской речи. Многоязычные модели обучались одновременно на распознавании многоязычной речи и переводе речи. При распознавании речи модель предсказывает транскрипцию на том же языке, что и аудиозапись. Для перевода речи модель предсказывает транскрипцию на язык, отличный от языка аудиозаписи.