Мадэль BERT уяўляе сабой двухнакіраваны трансформер, навучаны з мэтай мадэлявання мовы па масцы (MLM) і прадказанні наступнага сказа (NSP). Назва расшыфроўваецца як Bidirectional Encoder Representations from Transformers. У адрозненне ад сучасных мадэляў моўных уяўленняў, BERT прызначана для папярэдняга навучання глыбокіх двухнакіраваных уяўленняў на аснове немаркіраванага тэксту шляхам сумеснага ўліку левага і правага кантэксту ва ўсіх слаях. У выніку папярэдне навучаная мадэль BERT можа быць дакладна наладжана з дапамогай усяго аднаго дадатковага выхаднога слоя для стварэння сучасных мадэляў для шырокага спектру задач, такіх як адказы на пытанні і моўны вывад без істотных мадыфікацый архітэктуры, спецыфічных для канкрэтнай задачы.