СЕМАНТЫЧНАЯ СЕГМЕНТАЦЫЯ МАЛЮНКАЎ ДЫСТАНЦЫЙНАГА ЗАНДЗІРАВАННЯ ЗЯМНОЙ ПАВЕРХНІ НА АСНОВЕ ЗВЁРТАЧНЫХ НЕЙРОННЫХ СЕТАК

Даследаванні / СЕМАНТЫЧНАЯ СЕГМЕНТАЦЫЯ МАЛЮНКАЎ ДЫСТАНЦЫЙНАГА ЗАНДЗІРАВАННЯ ЗЯМНОЙ ПАВЕРХНІ НА АСНОВЕ ЗВЁРТАЧНЫХ НЕЙРОННЫХ СЕТАК

А. А. Воранаў, М. В. Аліфірук

Уводзіны

Семантычная сегментацыя малюнкаў заключаецца ў выдзяленні на малюнку лакальных абласцей (сегментаў), якія адпавядаюць розным класам аб’ектаў. Сегментацыя здымкаў дыстанцыйнага зандзіравання Зямлі (ДЗЗ) знаходзіць прымяненне ў мностве абласцей: геаінфарматыцы, інжынірынгу геарэсурсаў, аўтаматычным стварэнні карт мясцовасці. Дадзеная задача да гэтага часу не вырашана ў поўнай меры і часта некаторыя этапы працэсу выконваюцца аператарамі ўручную, што прыводзіць да вялікіх часовых выдаткаў і зніжэння эфектыўнасці. Сярод існуючага мноства метадаў адным з найбольш эфектыўных падыходаў да вырашэння гэтай задачы з’яўляецца прымяненне нейрасеткавых алгарытмаў. Існуе пэўнае мноства нейронных сетак (НС), якія выкарыстоўваюцца для сегментацыі малюнкаў (SegNet, DeepLabv1-3+, PSPNet, U-Net). У іх прымяняюцца некаторыя з наступных прыёмаў:

– аперацыя, зваротная скрутцы – разгортка (deconvolution);

– пашыраная скрутка (dilated convolutions);

– шматмаштабнае агрэгаванне кантэксту (multi-scale context aggregator);

– фарміраванне сеткі на аснове пірамідальнага аб’яднання (pyramid pooling network);

маркаўскія выпадковыя палі (Conditional Random Field) і постпрацэсінг

(postpro-cessing);

– пропуск злучэння (skip-connection).

Архітэктура звёртачнай нейроннай сеткі (ЗНС) для сегментацыі U-Net выкарыстоўвае першы і апошні з пералічаных прыёмаў: разгортку (deconvolution) і пропуск злучэння (skip-connection). Сетка U-Net з’яўляецца тыповай структурай кадавальнік-дэкодэр. Кодэр выкарыстоўвае ўзровень аб’яднання прасторавага вымярэння ўваходных даных, у той час як дэкодэр паступова аднаўляе дэталі і адпаведнае прасторавае вымярэнне на ўзроўні сеткі, такім як узровень дэканвалюцыі. Ад кадавальніка да дэкодэра звычайна існуе сувязь, якая дапамагае дэкодэру лепш аднаўляць мэтавыя дэталі. Тыповая структура сеткі U-Net прадстаўлена на мал. 1.

Асноўныя структурныя змены архітэктуры адбыліся ў параўнанні з сеткай FCN. Перавага U-Net перад FCN заключаецца ў тым, што u-Net патрабуе толькі аднаго навучання, а FCN-трох.

Па выніках аналізу варта адзначыць перспектыўнасць прымянення для семантычнай сегментацыі малюнкаў ДЗЗ ЗНС U-Net. Яна мае простую архітэктуру і, як следства, малое спажыванне рэсурсаў пры выкарыстанні ў працоўным рэжыме і пры навучанні. Нават пры невялікай навучальнай выбарцы дасягаюцца прымальныя па якасці вынікі.

Пабудова мадэлі апрацоўкі даных

Даследаванні праводзіліся з выявамі ДЗЗ (945 здымкаў з дазволам 838×859 пк). У трэніровачным наборы 803 малюнка, У тэставым – 142. Даныя прадаставіў для выкарыстання Касмічны цэнтр Мухамеда бін Рашыда (Mohammed bin Rashid Space Centre), у склад якога ўваходзіць эмірацкі Інстытут перадавых навук і тэхналогій, які працуе над касмічнай праграмай Аб’яднаных Арабскіх Эміратаў. Прыклад зыходнага малюнка і яго маскі прыведзены на мал. 2.

Для семантычнай сегментацыі былі распрацаваны мадыфікаваныя мадэлі сеткі UNet на мове Python з выкарыстаннем бібліятэк Scikit-learn, NumPy і SciPy, Pans і Matplotlib, Keras, Tensorflow. Tensorflow непасрэдна выконвае апрацоўку, а Keras дапамагае абстрагіравацца ад архітэктуры НС, прадстаўленай у табліцы.

Параметры мадыфікаванай ЗНС

У якасці метаду аптымізацыі выкарыстоўваецца Адам. Алгарытм яго аптымізацыі з’яўляецца пашырэннем стахастычнага градыентнага спуску, які ў апошні час атрымаў шырокае распаўсюджванне для прыкладанняў глыбокага навучання ў галіне камп’ютарнага гледжання апрацоўкі натуральнай мовы. Колькасць эпох навучання – 30.

Уваходнымі данымі для навучання з’яўляюцца пары, якія складаюцца з арыгінальных малюнкаў і размечаных масак (гл. мал. 2). На масках вызначаным колерам пазначаны вобласці, якія адпавядаюць класам: «зямельны ўчастак», «дарожная сетка»,«будынкі», «расліннасць», «вадаём». На іх неабходна навучыцца сегментаваць з дапамогай прапанаванай сеткі.

Для падрыхтоўкі неабходнай колькасці навучальных вобразаў для распрацаванай НС выконваліся наступныя дзеянні:

1) загрузіць уваходныя выявы;

2) размеціць вобласці малюнкаў у адпаведнасці з мэтавымі класамі;

3) задаць уваходны памер нейроннай сеткі;

4) задаць памер вобласці перакрыцця;

5) падзяліць уваходныя малюнкі на часткі, якія іх пакрываюць, памерам, зададзеным у п. 3, і памерам перакрыцця, зададзеным у п. 4;

6) ужыць выпадковае змяненне яркасці і кантрасту;

7) дадаць шум матрыцы здымачнай сістэмы;

8) дадаць выпадковы шум;

9) дадаць артэфакты сціску малюнкаў;

10) ужыць размыццё малюнка;

11) дадаць аптычныя скажэнні;

12) ужыць пругкую дэфармацыю;

13) ужыць скажэнні па сетцы;

14) Ужыць аффінныя пераўтварэнні;

15) ужыць выпадковае кадраванне з павелічэннем памеру;

16) ужыць адлюстраванне па гарызанталі;

17) ужыць адлюстраванне па вертыкалі.

Для пунктаў 6-17 методыкі ўсталёўваецца некаторая верагоднасць выканання пункта, якая павінна быць менш адзінкі.

Ацэнка навучання нейрасеткавай мадэлі

У якасці метрыкі для ацэнкі дакладнасці працы алгарытму абраная Intersection-Over-Union (Itu), якая вылічаецца па формуле

IoU = Si / Su

дзе Si – плошча перасячэння выніку сегментацыі і праўдзівай вобласці, Su – плошча аб’яднання выніку сегментацыі і праўдзівай вобласці. Дакладнасць пры навучанні на трэніровачнай выбарцы склала 83,8%, на тэставай выбарцы – 82,4%.

Прыклад зыходнага малюнка, маскі, сфарміраванай па малюнку, і адпаведнага прадказанні ПДВ для маскі паказаны на мал. 3.

Ранейшае даследаванне Раней