Модель BERT представляет собой двунаправленный трансформер, обученный с целью моделирования языка по маске (MLM) и предсказания следующего предложения (NSP). Название расшифровывается как Bidirectional Encoder Representations from Transformers. В отличие от современных моделей языковых представлений, BERT предназначена для предварительного обучения глубоких двунаправленных представлений на основе немаркированного текста путем совместного учета левого и правого контекста во всех слоях. В результате предварительно обученная модель BERT может быть точно настроена с помощью всего одного дополнительного выходного слоя для создания современных моделей для широкого спектра задач, таких как ответы на вопросы и языковой вывод без существенных модификаций архитектуры, специфичных для конкретной задачи.