
В рамках своего API компания OpenAI анонсировала три новые аудиомодели, которые меняют способ взаимодействия пользователей с агентами ИИ.
Это gpt-4o-transcribe и gpt-4o-mini-transcribe, предназначенные для преобразования речи в текст (speech2text).
🎙 Модели отличаются эффективностью при работе с акцентами, в условиях повышенного шума и при быстром темпе речи — традиционно сложных задачах для систем распознавания голоса.
Третья модель, gpt-4o-mini-ts, представляет собой решение для преобразования текста в речь. Но это не просто озвучка — модель способна воспроизводить текст с нужной интонацией и голосом, заданными пользователем.