Мы используем файлы cookie на этом сайте, чтобы улучшить ваш пользовательский опыт.
Пожалуйста, ознакомьтесь с Политикой конфиденциальности для получения более подробной информации.

Белорусскоязычная голосовая вопросно-ответная система «Голосовой AI-ассистент»
Ю. Гецевич, Е. Зеновко, О. Дыдо, М. Лютич, М. Паутина

Голосовой AI-ассистент — это платформа с вопросно-ответными системами, с которыми можно поговорить голосом и текстом.


Целью разработки ассистентов является обеспечение эффективного и простого в использовании механизма предоставления общей информации и решения вопросов пользователей на белорусском языке. Вопросно-ответная система «Голосовой AI-ассистент» позволяет пользователю голосом или вводом текста с клавиатуры задать вопрос на белорусском языке и получить на него звуковой или напечатанный ответ. За счет использования искусственного интеллекта она дает возможность получать быстрые, качественные и точные ответы на различные вопросы. В результате ежедневного обучения голосовой ассистент может ответить вам как на запросы о науке, так и сделать развлекательные предложения.

Чтобы начать диалог с ассистентом, можно записать голосовое сообщение или ввести текст с клавиатуры. Для обработки произнесенного вопроса используется выстроенная система распознавания белорусской речи (БСРР) высокого качества, основанная на end-to-end архитектуре с использованием глубокого обучения. Она помещена на платформе Hugging Face, которая позволяет пользователям создавать модели машинного обучения и наборы данных и обмениваться ими. Для разработки БСРР был собран большой корпус начитанных текстов на белорусском языке. Общая продолжительность собранных аудиозаписей составляет 987 часов, в озвучивании которых приняли участие 6160 дикторов. Это первый из подобных набор датасетов такого размера для белорусского языка. Высокая вариативность собранных данных, как относительно дикторов (пол, возраст, темп речи, другие особенности произношения), так и относительно условий записей (разные микрофоны, наличие фонового шума, др.), позволила обучить распознаванию речи работать в условиях, приближенных к тем, с которыми этим системам придется работать в повседневной жизни. Модель распознавания речи была обучена на современной глубокой нейросетевой архитектуре Whisper. Ее особенностью является предобучение на корпусе неаннотированных данных (в режиме без учителя) для изучения способов качественного выделения признаков по входящей аудиозаписи. Полученные признаки используются для дальнейших подзадач: например, для доучивания модели преобразовывать речь в текст. В качестве предобученной модели была выбрана  openai/whisper-small. Конечный результат обучения системы нейронными сетями составляет WER 0,679 (или 6,79%), что является довольно хорошо для моделей распознавания. Так, например, текущее лучшее значение test WER для немецкого датасета Common Voice
составляет 5,7%.

На следующем этапе происходит обработка запроса текстовым процессором, где система анализирует текст. Важно правильно распознать не только произнесенные слова, но и числа, аббревиатуры, сокращения и те слова, которые пользователь проговорил неточно или невнятно. За это отвечает блок компьютерной обработки запроса. Далее обработанный запрос передается в блок языковой модели генерации ответов, которая может представлять собой коллекцию вопросов и ответов, коллекцию документов, в которых происходит поиск или, например, web-поиск в интернет-пространстве. Для белорусскоязычных вопросно-ответных систем используется языковая модель ChatGPT-3.5, для тренировки которой использовались методы обучения с учителем и обучения с подкреплением. GPT является серией языковых моделей, разработанных компанией OpenAI. Модель предварительно обучена на огромных наборах текстовых данных. Благодаря этому GPT может генерировать текст, который имеет смысл, использует правильную грамматику и структуру предложений. Система способна адаптироваться к различным стилям написания и форматам, таким как статьи, диалоги, отчеты и т. д. ChatGPT отслеживает состояние пользователя, запоминая предыдущие вопросы и ответы, приведенные в том же разговоре. В попытке предотвратить выдачу оскорбительных ответов на вопросы пользователей, в ChatGPT запросы фильтрируются через API модерации и все подсказки подобного рода от пользователей отклоняются. Поэтому представленная система является полезным инструментом поиска и выдачи ответов.

Для удобства на данный момент активированы домены: asistent.by, асістэнт.бел, асистент.бел.