Уводзіны
Семантычная сегментацыя малюнкаў заключаецца ў выдзяленні на малюнку лакальных абласцей (сегментаў), якія адпавядаюць розным класам аб’ектаў. Сегментацыя здымкаў дыстанцыйнага зандзіравання Зямлі (ДЗЗ) знаходзіць прымяненне ў мностве абласцей: геаінфарматыцы, інжынірынгу геарэсурсаў, аўтаматычным стварэнні карт мясцовасці. Дадзеная задача да гэтага часу не вырашана ў поўнай меры і часта некаторыя этапы працэсу выконваюцца аператарамі ўручную, што прыводзіць да вялікіх часовых выдаткаў і зніжэння эфектыўнасці. Сярод існуючага мноства метадаў адным з найбольш эфектыўных падыходаў да вырашэння гэтай задачы з’яўляецца прымяненне нейрасеткавых алгарытмаў. Існуе пэўнае мноства нейронных сетак (НС), якія выкарыстоўваюцца для сегментацыі малюнкаў (SegNet, DeepLabv1-3+, PSPNet, U-Net). У іх прымяняюцца некаторыя з наступных прыёмаў:
– аперацыя, зваротная скрутцы – разгортка (deconvolution);
– пашыраная скрутка (dilated convolutions);
– шматмаштабнае агрэгаванне кантэксту (multi-scale context aggregator);
– фарміраванне сеткі на аснове пірамідальнага аб’яднання (pyramid pooling network);
маркаўскія выпадковыя палі (Conditional Random Field) і постпрацэсінг
(postpro-cessing);
– пропуск злучэння (skip-connection).
Архітэктура звёртачнай нейроннай сеткі (ЗНС) для сегментацыі U-Net выкарыстоўвае першы і апошні з пералічаных прыёмаў: разгортку (deconvolution) і пропуск злучэння (skip-connection). Сетка U-Net з’яўляецца тыповай структурай кадавальнік-дэкодэр. Кодэр выкарыстоўвае ўзровень аб’яднання прасторавага вымярэння ўваходных даных, у той час як дэкодэр паступова аднаўляе дэталі і адпаведнае прасторавае вымярэнне на ўзроўні сеткі, такім як узровень дэканвалюцыі. Ад кадавальніка да дэкодэра звычайна існуе сувязь, якая дапамагае дэкодэру лепш аднаўляць мэтавыя дэталі. Тыповая структура сеткі U-Net прадстаўлена на мал. 1.
Асноўныя структурныя змены архітэктуры адбыліся ў параўнанні з сеткай FCN. Перавага U-Net перад FCN заключаецца ў тым, што u-Net патрабуе толькі аднаго навучання, а FCN-трох.
Па выніках аналізу варта адзначыць перспектыўнасць прымянення для семантычнай сегментацыі малюнкаў ДЗЗ ЗНС U-Net. Яна мае простую архітэктуру і, як следства, малое спажыванне рэсурсаў пры выкарыстанні ў працоўным рэжыме і пры навучанні. Нават пры невялікай навучальнай выбарцы дасягаюцца прымальныя па якасці вынікі.
Пабудова мадэлі апрацоўкі даных
Даследаванні праводзіліся з выявамі ДЗЗ (945 здымкаў з дазволам 838×859 пк). У трэніровачным наборы 803 малюнка, У тэставым – 142. Даныя прадаставіў для выкарыстання Касмічны цэнтр Мухамеда бін Рашыда (Mohammed bin Rashid Space Centre), у склад якога ўваходзіць эмірацкі Інстытут перадавых навук і тэхналогій, які працуе над касмічнай праграмай Аб’яднаных Арабскіх Эміратаў. Прыклад зыходнага малюнка і яго маскі прыведзены на мал. 2.
Для семантычнай сегментацыі былі распрацаваны мадыфікаваныя мадэлі сеткі UNet на мове Python з выкарыстаннем бібліятэк Scikit-learn, NumPy і SciPy, Pans і Matplotlib, Keras, Tensorflow. Tensorflow непасрэдна выконвае апрацоўку, а Keras дапамагае абстрагіравацца ад архітэктуры НС, прадстаўленай у табліцы.
Параметры мадыфікаванай ЗНС
У якасці метаду аптымізацыі выкарыстоўваецца Адам. Алгарытм яго аптымізацыі з’яўляецца пашырэннем стахастычнага градыентнага спуску, які ў апошні час атрымаў шырокае распаўсюджванне для прыкладанняў глыбокага навучання ў галіне камп’ютарнага гледжання апрацоўкі натуральнай мовы. Колькасць эпох навучання – 30.
Уваходнымі данымі для навучання з’яўляюцца пары, якія складаюцца з арыгінальных малюнкаў і размечаных масак (гл. мал. 2). На масках вызначаным колерам пазначаны вобласці, якія адпавядаюць класам: «зямельны ўчастак», «дарожная сетка»,«будынкі», «расліннасць», «вадаём». На іх неабходна навучыцца сегментаваць з дапамогай прапанаванай сеткі.
Для падрыхтоўкі неабходнай колькасці навучальных вобразаў для распрацаванай НС выконваліся наступныя дзеянні:
1) загрузіць уваходныя выявы;
2) размеціць вобласці малюнкаў у адпаведнасці з мэтавымі класамі;
3) задаць уваходны памер нейроннай сеткі;
4) задаць памер вобласці перакрыцця;
5) падзяліць уваходныя малюнкі на часткі, якія іх пакрываюць, памерам, зададзеным у п. 3, і памерам перакрыцця, зададзеным у п. 4;
6) ужыць выпадковае змяненне яркасці і кантрасту;
7) дадаць шум матрыцы здымачнай сістэмы;
8) дадаць выпадковы шум;
9) дадаць артэфакты сціску малюнкаў;
10) ужыць размыццё малюнка;
11) дадаць аптычныя скажэнні;
12) ужыць пругкую дэфармацыю;
13) ужыць скажэнні па сетцы;
14) Ужыць аффінныя пераўтварэнні;
15) ужыць выпадковае кадраванне з павелічэннем памеру;
16) ужыць адлюстраванне па гарызанталі;
17) ужыць адлюстраванне па вертыкалі.
Для пунктаў 6-17 методыкі ўсталёўваецца некаторая верагоднасць выканання пункта, якая павінна быць менш адзінкі.
Ацэнка навучання нейрасеткавай мадэлі
У якасці метрыкі для ацэнкі дакладнасці працы алгарытму абраная Intersection-Over-Union (Itu), якая вылічаецца па формуле
IoU = Si / Su
дзе Si – плошча перасячэння выніку сегментацыі і праўдзівай вобласці, Su – плошча аб’яднання выніку сегментацыі і праўдзівай вобласці. Дакладнасць пры навучанні на трэніровачнай выбарцы склала 83,8%, на тэставай выбарцы – 82,4%.
Прыклад зыходнага малюнка, маскі, сфарміраванай па малюнку, і адпаведнага прадказанні ПДВ для маскі паказаны на мал. 3.