
Праблема доўгачасовых залежнасцяў
Для апрацоўкі залежнасцяў у паслядоўных даных часта выкарыстоўваюцца рэкурэнтныя нейронныя сеткі (RNN). Рэкурэнтныя нейронныя сеткі вырашаюць праблему традыцыйных нейронных сетак, якія не могуць улічваць папярэднюю інфармацыю пры апрацоўцы даных. У адрозненне ад іх, RNN маюць зваротныя сувязі, што дазваляе захоўваць кантэкст і выкарыстоўваць папярэдні вопыт для прадказання бягучых падзей, напрыклад, у паслядоўнасцях тэксту або відэа.
Рэкурэнтная нейронная сетка ў разгортцы
RNN могуць быць карысныя для задач, дзе патрабуецца звязваць папярэднюю інфармацыю з бягучай, напрыклад у моўных мадэлях. Аднак іх эфектыўнасць залежыць ад адлегласці паміж актуальнай інфармацыяй і момантам яе прымянення. У выпадках, калі гэта дыстанцыя малая, як пры прадказанні бліжэйшага слова, RNN спраўляюцца добра. Але калі патрабуецца ўлічыць больш далёкі кантэкст, напрыклад у сказах з аддаленай сувяззю, RNN губляюць здольнасць эфектыўна выкарыстоўваць гэту інфармацыю.
Сеткі LSTM
Доўгая кароткатэрміновая памяць (LSTM) – гэта разнавіднасць рэкурэнтных нейронных сетак, здольная навучацца доўгачасовым залежнасцям. Распрацаваныя Хахрайтарам і Шмідхуберам у 1997 годзе, LSTM вырашаюць праблему доўгачасовай залежнасці, эфектыўна запамінаючы інфармацыю на працяглыя перыяды. У адрозненне ад звычайных RNN, чые модулі маюць простую структуру, LSTM спецыяльна спраектаваны для захоўвання інфармацыі на доўгіх прамежках часу, што робіць іх шырока прыдатнымі для складаных задач.
І структура RNN, і структура LSTM нагадваюць ланцужок, але модулі ў LSTM выглядаюць інакш. Замест аднаго слоя нейроннай сеткі яны ўтрымліваюць цэлых чатыры, і гэтыя слаі ўзаемадзейнічаюць адмысловым чынам.
Паўторны модуль у стандартнай RNN складаецца з аднаго слоя.
Паўторны модуль у LSTM сетцы складаецца з чатырох слаёў, якія ўзаемадзейнічаюць паміж сабой.
Асноўная ідэя LSTM
Ключавым элементам STM з’яўляецца стан ячэйкі (гарызантальная лінія, што праходзіць па верхняй частцы схемы), які дзейнічае як канвеер для перадачы інфармацыі з мінімальнымі зменамі.
Фільтры (gates) кантралююць выдаленне або захаванне інфармацыі, выкарыстоўваючы сігмаідальны слой, які вызначае, колькі даных прапусціць. Сігмаідальны слой вяртае лікі ад нуля да адзінкі. Гэтыя лікі абазначаюць, якую долю кожнага блока інфармацыі варта прапусціць далей па сетцы. У LSTM тры такіх фільтры, якія рэгулююць стан ячэйкі і кіруюць патокам інфармацыі.