Мы выкарыстоўваем файлы cookie на гэтым сайце для паляпшэння вашага вопыту карыстання.
Для больш падрабязнай інфармацыі азнаёмцеся з Палітыка канфідэнцыяльнасці

Беларускамоўная галасавая пытальна-адказная сістэма “Галасавы АІ-асістэнт”
Ю. Гецэвіч, Я. Зяноўка, В. Дыдо, М. Люціч, М. Павуціна

Галасавы АІ-асістэнт – платформа з пытальна-адказнымі сістэмамі, з якімі можна пагаварыць голасам і тэкстам.

Мэтай распрацоўкі асістэнтаў з’яўляецца забеспячэнне эфектыўнага і простага ў выкарыстанні механізма прадастаўлення агульнай інфармацыі і рашэння пытанняў карыстальнікаў на беларускай мове. Пытальна-адказная сістэма “Галасавы АІ-асістэнт” дазваляе карыстальніку голасам ці ўводам тэксту з клавіятуры задаць пытанне на беларускай мове і атрымаць на яго гукавы ці надрукаваны адказ. За кошт выкарыстання штучнага інтэлекту яна дае магчымасць атрымліваць хуткія, якасныя і дакладныя адказы на розныя пытанні. У выніку штодзённага навучання галасавы асістэнт можа адказаць вам як на запыты пра навуку, так і зрабіць забаўляльныя прапановы. 

Каб пачаць дыялог з асістэнтам, можна запісаць галасавое паведамленне ці ўвесці тэкст з клавіятуры. Для апрацоўкі вымаўленага пытання выкарыстоўваецца пабудаваная сістэма распазнавання беларускага маўлення (БСРМ) высокай якасці, заснаваная на end-to-end архітэктуры з выкарыстаннем глыбокага навучання. Яна змешчана на платформе Hugging Face, якая дазваляе карыстальнікам ствараць і абменьвацца мадэлямі машыннага навучання і наборамі даных. Для распрацоўкі БСРМ быў сабраны вялікі корпус начытаных тэкстаў на беларускай мове. Агульная працягласць сабраных аўдыязапісаў складае 987 гадзін, у агучванні якіх прынялі ўдзел 6’160 дыктараў. Гэта першы з падобных датасэтаў такога памеру для беларускай мовы. Высокая варыятыўнасць сабраных даных як адносна дыктараў (пол, узрост, тэмп маўлення, іншыя асаблівасці вымаўлення), так і адносна ўмоў запісаў (розныя мікрафоны, наяўнасць фонавага шуму, інш.) дазволіла навучыць сістэму распазнавання маўлення працаваць ва ўмовах, набліжаных да тых, з якімі гэтым сістэмам давядзецца працаваць у штодзённым жыцці. Мадэль распазнавання маўлення была навучана на сучаснай глыбокай нейрасеткавай архітэктуры Whisper. Яе асаблівасцю з’яўляецца пераднавучанне на корпусе неанатаваных данных (у рэжыме без настаўніка) для вывучэння спосабаў якаснага вылучэння прыкмет па ўваходным ўдыязапісе. Атрыманыя прыкметы выкарыстоўваюцца для далейшых падзадач: напрыклад для давучвання мадэлі пераўтвараць маўленне ў тэкст. У якасці пераднавучанай мадэлі была абраная  openai/whisper-small. Канчатковы вынік навучання сістэмы нейроннымі сеткамі складае WER 0.679 (або 6.79%), што з’яўляецца даволі добрым для мадэляў распазнавання. Так, напрыклад, цяперашняе найлепшае значэнне test WER для нямецкага датасэту Common Voice роўнае 5.7%.

На наступным этапе адбываецца апрацоўка запыта тэкставым працэсарам, дзе сістэма аналізуе тэкст. Важна правільна распазнаць не толькі вымаўленыя словы, але і лікі, абрэвіятуры, скарачэнні і тыя словы, якія карыстальнік прамовіў недакладна ці невыразна. За гэта адказвае блок камп’ютарнай апрацоўкі запыта. Далей апрацаваны запыт перадаецца  ў блок моўнай мадэлі генерацыі адказаў, якая можа ўяўляць сабой калекцыю пытанняў і адказаў, калекцыю дакументаў, у якіх адбываецца пошук, ці, напрыклад, web-пошук у інтэрнэт-прасторы. Для беларускамоўных пытальна-адказных сістэм выкарыстоўваецца моўная мадэль ChatGPT-3.5, для трэніроўкі якой выкарыстоўваліся метады навучання з настаўнікам і навучання з падмацаваньнем. GPT з’яўляецца серыяй моўных мадэляў, распрацаваных кампаніяй OpenAI. Мадэль папярэдне навучана на велізарных наборах тэкставых даных. Дзякуючы гэтаму GPT можа генераваць тэкст, які мае сэнс, выкарыстоўвае правільную граматыку і структуру сказаў. Сістэма здольна адаптавацца да розных стыляў напісання і фарматаў, такім як артыкулы, дыялогі, справаздачы і г.д. ChatGPT адсочвае стан карыстальніка, запамінаючы папярэднія пытанні і адказы, прыведзеныя ў той жа размове. У спробе прадухіліць выдачу абразлівых адказаў на пытанні карыстальнікаў, у ChatGPT запыты фільтруюцца праз API мадэрацыі і ўсе падказкі падобнага роду ад карыстальніка адхіляюцца. Таму прадстаўленая сістэма з’яўляецца карысным інструментам пошуку і выдачы адказаў. 

Для зручнасці на дадзены момант актываваныя дамены: asistent.by, асістэнт.бел, асистент.бел.