Модель fastText (Language Identification)

распознавание текста

13.09.2024

FastText – это библиотека для эффективного обучения представлений слов и классификации предложений. FastText создан для простого использования разработчиками, экспертами в данной области и студентами. Библиотека была разработана для быстрого итерационного обучения и уточнения моделей без использования специализированного оборудования. Она предназначена для классификации текстов и изучения представлений слов. Модели fastText могут быть обучены на более чем миллиарде слов на любом многоядерном процессоре менее чем за несколько минут. Официальный сайт: https://fasttext.cc/.

Данная модель LID (Language IDentification) используется для предсказания языка входного текста. Ее хостинговая версия (lid218e) была выпущена в рамках проекта NLLB (https://github.com/facebookresearch/fairseq/blob/nllb/README.md#lid-model) и может определять 217 языков.

Ссылка: https://huggingface.co/facebook/fasttext-language-identification