AudioMNIST | BELAI

Распознавание речи

Обработка звуков

Классификация звуков

AudioMNIST

26.02.2025

Набор данных audioMNIST содержит 30 000 записей на английском языке и 10 цифр от 0 до 9. в создании датасета принимали участие 60 дикторов, из них 12 женщин и 48 мужчин, с различными акцентами и странами происхождения. Их возраст варьируется от 22 лет до 61 года. Данный датасет подходит для простых задач классификации аудио: классификация цифр или классификация пола человека.

Особенности данных:
половая принадлежность в наборе данных несбалансирована: около 80% – мужчины;
большинство дикторов (около 70%) имеют немецкий акцент;
каждому диктору соответствует одна папка в датасете;
дополнительно в файле ” audioMNIST_meta.txt ” содержится метаинформация, такая как пол, возраст, национальность и т.д.

Кроме записей в репозитории по ссылке также приводятся две обученные на этом датасете модели.

Сылка на датасет

Статья