
У рамках свайго API, OpenAI анансавалі тры новыя аўдыямадэлі, якія змяняюць спосабы ўзаемадзеяння карыстальнікаў з АІ-агентамі.
Гэта gpt-4o-transcribe і gpt-4o-mini-transcribe, прызначаны для пераўтварэння маўлення ў тэкст (speech2text).
🎙 Мадэлі адзначаюцца эфектыўнасцю пры працы з акцэнтамі, ва ўмовах павышанага шуму і пры хуткім тэмпе маўлення — традыцыйна цяжкіх задачах для сістэм распазнавання голасу.
Трэцяя мадэль, gpt-4o-mini-ts, уяўляе сабой рашэнне для пераўтварэння тэксту ў маўленне (text2speech). Але гэта не простае агучванне — мадэль здольная прайграваць тэкст з патрэбнай інтанацыяй і голасам, зададзеным карыстальнікам.