ВЫЗНАЧЭННЕ КІРУНКУ РУХУ ГРУПЫ ЛЮДЗЕЙ НА ВІДЭА НА АСНОВЕ ВЫЛІЧЭННЯ АПТЫЧНАГА ПАТОКУ НЕЙРОННАЙ СЕТКАЙ

Даследаванні / ВЫЗНАЧЭННЕ КІРУНКУ РУХУ ГРУПЫ ЛЮДЗЕЙ НА ВІДЭА НА АСНОВЕ ВЫЛІЧЭННЯ АПТЫЧНАГА ПАТОКУ НЕЙРОННАЙ СЕТКАЙ

А. Д. Пашкевіч, С. У. Абламейка

Прапанаваны алгарытм вызначэння кірунку руху групы людзей на відэа з дапамогай аптычнага патоку. Для вылічэння аптычнага патоку выкарыстоўваецца скруткавая нейронная сетка LiteFlowNet3, затым вылічаецца інтэгральны аптычны струмень і будуецца карта вектараў зрушэння. Пабудаваўшы вектарнае поле зрушэнняў пікселяў двух малюнкаў (кадраў відэа), можна атрымаць поўную карціну перамяшчэння пікселяў і ўсіх аб’ектаў кадраў, якія яны складаюць.

Уводзіны

Інтэлектуальныя сістэмы відэаназірання ў цяперашні час атрымалі шырокае распаўсюджванне. Аўтаматычнае распазнаванне і адсочванне перамяшчэння людзей на відэа з’яўляюцца нормай. Аднак усё больш увагі стала надавацца пытанням разумення паводзін натоўпу (групы) людзей, што з’яўляецца значна больш складанай задачай.

Традыцыйны спосаб для вызначэння паводзін групы людзей заключаецца ў аддзяленні аб’ектаў цікавасці ад фону і ўдасканаленні іх руху ў асобнасці. Аднак пры руху групы дадзены метад немагчыма выкарыстоўваць з-за шматлікіх аклюзій. У апошнія гады для вырашэння гэтай задачы ўжываецца мноства метадаў, напрыклад аптычны паток, скруткавая нейронная сетка (СНС), мадэль сацыяльнай сілы і т. д.

У папярэдніх працах было прапанавана вылічаць інтэгральны аптычны паток і карты руху для вызначэння паводзін натоўпу. Вылічэнне аптычнага патоку – зрушэння кожнага пікселя кадра – досыць складанае доўгае вылічэнне, таму ў апошнія гады з’явіліся спробы выкарыстоўваць для яго нейронныя сеткі. Адна з самых вядомых сетак – LiteFlowNet і яе мадэрнізацыі. У дакладзе для вылічэнняў базавага аптычнага патоку выкарыстоўвалася сетка LiteFlowNet3, заснаваная на папярэдняй ёй LiteFlowNet2 з уключэннем мадуляцыі аб’ёму кошту і дэфармацыі поля патоку для далейшага павышэння дакладнасці вылічэнні патоку.

У гэтым дакладзе прапанаваны алгарытм ацэнкі руху груп людзей на відэа на падставе вылічэння інтэгральнага аптычнага патоку нейроннай сеткай і пабудовы карты вектараў зрушэння. Пабудаваўшы вектарнае поле зрушэнняў пікселяў двух малюнкаў (кадраў відэа), можна атрымаць поўную карціну перамяшчэння пікселяў і ўсіх аб’ектаў кадраў, якія яны складаюць. Гэта дазваляе больш дакладна вызначаць рух групы людзей, напрамкі іх руху або статычнасць.

Прапанаваны алгарытм ацэнкі руху групы людзей

Алгарытм ацэнкі руху людзей на аснове вылічэння аптычнага патоку і карт вектараў руху прымяняецца да відэапаслядоўнасцяў, атрыманым стацыянарнымі камерамі назірання ў грамадскіх месцах, і заключаецца ў наступным.

На першым этапе вылічаецца аптычны паток, пад якім разумеецца дыскрэтная апраксімацыя руху ў трохмернай сцэне, якая ажыццяўляецца шляхам праектавання скарасцей трохмерных паверхняў на плоскасць відарыса або візуальнага сэнсара. Двухмернае поле хуткасцяў, якім з’яўляецца аптычны струмень, выкарыстоўваецца для апісання руху ў сцэне. Аптычны струмень ацэньвае перасоўванне пікселяў ад кадра да кадра і візуальна прадстаўляецца ў выглядзе вектараў зрушэння для кожнай кропкі малюнка. Для гэтага знаходзіцца такі зрух, каб кропцы на зыходным кадры адпавядала кропка на другім кадры, які і вызначае даўжыню і кірунак вектараў. У якасці характарыстык пункта выявы, як правіла, выкарыстоўваецца яе ўзровень яркасці. Атрыманая інфармацыя аб аптычным патоку (хуткасці і напрамку руху суседніх кропак) выкарыстоўваецца для прасторавай сегментацыі аб’ектаў, якія рухаюцца.

Для вылічэння аптычнага патоку выкарыстоўвалася СНС LiteFlowNet3 з уключэннем мадуляцыі аб’ёму кошту і дэфармацыі поля патоку для далейшага павышэння яго дакладнасці.

Агульны прынцып працы СНС пры вылічэнні аптычнага патоку паміж кадрамі:

– выманне пірамідальных прыкмет – пераўтварэнне выявы ў піраміду шматузроўневых прыкмет высокага ўзроўню;

– дэфармацыя прыкмет. Каб аблегчыць вывад аб патоках з вялікім зрушэннем, высокаўзроўневыя прыкметы другога відарыса скажаюцца ў адносінах да высокаўзроўневай прасторы першай выявы з дапамогай слоя скажэння прымет (f-warp) на кожным узроўні піраміды прымет;

– вывад каскаднага патоку. Супастаўленне функцый высокага ўзроўню дае грубую адзнаку струменя. Таму далей адбываецца ўдакладненне грубіянскай плыні, каб дадаткова палепшыць яго дакладнасць;

– рэгуляцыя патоку. Разліковае поле струменя можа быць уразлівым для выкідаў, калі выкарыстоўваецца толькі дакладнасць даных. Таму неабходна ўпарадкаваць поле патоку, для чаго выкарыстоўваецца пласт лакальнай скруткі.

Для фарміравання вектарнага поля будуецца сетка і адлюстроўваюцца вектары зрушэнняў толькі тых пікселяў, якія размешчаны ў вузлах пабудаванай сеткі. У сілу дадзенай нязручнасці і немагчымасці атрымаць поўную карціну аб зняцці ўсіх пікселяў кадра часцей выкарыстоўваецца такі спосаб прадстаўлення патоку, як візуалізацыя колерам.

Зыходзячы з узаемнага размяшчэння найбольш падобных пікселяў на суседніх кадрах, вызначаецца вектар руху пікселяў. Неабходна адзначыць, што знойдзены вектар руху для пікселя можа не адпавядаць рэальнаму яго руху, г. зн. будзе памылковым. Наяўнасць памылковых вектараў не дазволіць выканаць якасную адзнаку руху. Памылковыя вектары могуць узнікаць з-за памеру вобласці пошуку падабенства пікселяў і блокаў. Акрамя гэтага, наяўнасць шумоў і вонкавых фактараў можа не дазволіць правільна вызначыць падобныя пікселі ці прывядзе да няправільнага рашэння, у выніку чаго будзе значнае адрозненне атрыманага вектара руху ад суседніх. У выніку фарміруецца карта (поле) руху для пікселяў або блокаў, у якой вектарамі паказваюцца напрамкі зрушэння кожнага пікселя або іх адсутнасць пры нулявым вектары.

Аднак калі прамежак часу паміж двума паслядоўнымі кадрамі вельмі малы, то складана аддзяліць рух аб’ектаў пярэдняга плана ад хаатычнага руху фону. Ужыванне інтэгральнага аптычнага струменя замест класічнага дазваляе паменшыць уплыў фону на адзнаку руху аб’екта і атрымаць вобласць інтэнсіўнага руху.

Для памяншэння ўплыву фону, пазбаўлення ад шуму, а таксама больш выразнага вылучэння меж рухомых аб’ектаў, якія складаюцца з змяшчаючыхся з часам пікселяў, будуецца інтэгральны аптычны струмень. Інтэгральны аптычны струмень – гэта вынік назапашвання аптычнага струменя для некалькіх паслядоўных кадраў. У выніку такога назапашвання памяншаюцца амплітуды вектараў зрушэння фону, пры гэтым амплітуды пікселяў, якія змяшчаюцца, адпаведна, і якія складаюцца з іх аб’ектаў, павялічваюцца.

Грунтуючыся на інтэгральным аптычным патоку, можна вызначыць і пабудаваць карты руху, якія дазваляюць апісваць рухі блокаў у кожнай пазіцыі сумесна, г. зн. даць статыстычны аналіз колькасці і напрамкі руху блокаў у напрамку кожнай пазіцыі або ад яе.

У працы ўведзены карты руху, якія дазваляюць фармалізаваць тыпы руху групы аб’ектаў. Гэтыя карты былі выкарыстаны для аналізу і апісання рухаў на ўзроўні пікселяў і абласцей. Для карт руху на ўзроўні пікселяў (блокаў) існуе два спосабы разгляду траекторый руху. Першы спосаб – разгледзець толькі пачатковую і канчатковую пазіцыі. Другі спосаб заключаецца ў далейшым разглядзе пазіцый, якія прайшлі па траекторыі руху. Калі выкарыстоўваецца першы шлях, траекторыя руху называецца простай траекторыяй руху; калі выкарыстоўваецца другі шлях, траекторыя руху называецца траекторыяй інтэрпаляцыйнага руху. Паколькі карты руху на ўзроўні рэгіёну ствараюцца на аснове карт руху на ўзроўні блокаў, яны таксама будуць залежаць ад таго, які шлях абраны.

Вынікі эксперыментаў

На мал. 1 паказана пабудова аптычнага патоку паміж кадрамі відэа, на якім два натоўпы людзей рухаюцца ў процілеглых кірунках (выкарыстоўвалася відэа са скрыжавання з вялікай колькасцю людзей у гадзіну пік).

Мал. 1. Кадр 1 (а) і кадр 2 (б) відэа са скрыжавання

У выніку пабудовы аптычнага патоку LiteFlowNet3 і яго візуалізацыі (мал. 2) можна выразна вылучыць два напрамкі руху, намаляваныя адпаведна чырвоным і сінім кветкамі, а таксама маларухомы, амаль статычны пераважна светлы фон (дарога, дрэвы, амаль нерухомыя аўтамабілі і інш.) з асобнымі ўкрапінамі розных светлых адценняў розных колераў, але межы аб’ектаў размытыя і іх цяжка вызначыць выразна.

Мал. 2. Візуалізацыя аптычнага патоку паміж кадрамі 1 і 2 (А) і кадрамі 1 і 6 (б)

Пры візуалізацыі інтэгральнага аптычнага патоку паміж шасцю паслядоўнымі кадрамі (мал. 2, б) адназначна вызначаецца белы фон і выразна акрэслены два натоўпы: адзін рухаецца направа і яго кірунак вызначаны чырвоным колерам, іншы рухаецца налева і яго кірунак выдзелены сінімі адценнямі.

Для візуалізацыі напрамкаў вектараў патоку была абраная шчыльнасць пікселяў – стаўленне пікселяў-вузлоў сеткі да ўсяго ліку пікселяў. У кожным выпадку выбіраецца сваё значэнне для параметру, але важна ўлічваць, што вялікая шчыльнасць робіць вектары маленькімі (адпаведна, губляюцца даныя) і пакрывае вельмі вялікі працэнт кадра. У той жа час, калі для параметру шчыльнасці пазначыць маленькае значэнне, гэта прывядзе да вялікай дакладнасці, але патэнцыйна таксама пацягне страту груп пікселяў (аб’ектаў) і флуктуацыі. У дадзеным прыкладзе былі абраныя два значэнні – 15 (мал. 3) і 5% (мал. 4).

Мал. 3. Візуалізацыя інтэгральнага аптычнага патоку вектарамі з сеткай шчыльнасцю 15 % паміж кадрамі 1-6

Мал. 4. Візуалізацыя інтэгральнага аптычнага патоку вектарамі з сеткай шчыльнасцю 5 % паміж кадрамі 1-6

Далей на падставе дадзенага параметру была пабудавана сетка, у кожным вузле якой малюецца вектар інтэгральнага патоку, які адносіцца да дадзенай кропцы. Самі вектары намаляваныя як чырвоныя адрэзкі, напрамкі якіх можна вызначыць па пачатку вектара – зялёнай кропцы. Такім чынам, вектар пачынаецца ў зялёнай кропцы (пачатак вектара, кропка сеткі). Калі чырвоны адрэзак лявей кропкі, то ён накіраваны налева, калі правей кропкі – направа, вышэй – уверх і т. д. У разгледжаных прыкладах натоўпы людзей рухаюцца ў сустрэчных напрамках і досыць інтэнсіўна, хутка, так як вектары маюць дастаткова вялікія модулі.

У выкарыстаным для аналізу руху натоўпу відэа вектары зрушэння вельмі вялікія па модулю (у сілу хуткасці руху аб’ектаў), з-за чаго на малюнках мал. 3 накладваліся адзін на аднаго, што не дазваляла вызначыць як самі вектары, так і іх напрамкі, так як пачаткі вектараў (зялёныя кропкі) зачыняюцца чырвонымі лініямі напрамкаў вектараў.

Для вырашэння праблемы накладвання вектараў адзін на аднаго была выкарыстана стандартызацыя і абраная шчыльнасць 5 %. Вызначаўся самы вялікі па модулю вектар інтэгральнага патоку, яго візуальная даўжыня прыводзілася да даўжыні, роўнай палове адлегласці паміж суседнімі вузламі сеткі. Даўжыня малюнка астатніх вектараў змянялася прапарцыйна даўжыні самага вялікага вектара. У выніку параметрычнай стандартызацыі атрымалася ўпісаць кожны вектар у свой квадрат сеткі і пазбегнуць накладання вектараў аднолькавых напрамкаў (мал. 4).

Такім чынам, з дапамогай візуалізацыі вектараў можна вызначыць як кірунак зрушэнняў, так і вобласці зрушэння – межы натоўпу, але дадзеная мяжа ня вельмі дакладная ў сілу таго, што пабудавана на падставе сеткі, дзе губляюцца даныя. Для малюнка межаў рухомых аб’ектаў лепш выкарыстоўваць візуалізацыю колерам.

Таксама з вызначэннем паводзін натоўпу, кірункам яе руху і суадносін напрамкаў руху некалькіх натоўпаў, падгруп могуць дапамагчы карты руху. Карта з вектарам у кожнай пазіцыі, які ўказвае сумарны рух пікселяў, якія рухаюцца да адпаведнай пазіцыі, называецца комплекснай картай руху ў бок канкрэтнай пазіцыі (ICM-карта, in-pixel comprehensive motion map). Карта з вектарам у кожнай пазіцыі, які ўказвае сумарны рух пікселяў, якія аддаляюцца ад адпаведнай пазіцыі, называецца комплекснай картай руху з дадзенай пазіцыі (OCM-карта, out-pixel comprehensive motion map). Па картах можна таксама пацвердзіць кірунак руху натоўпаў насустрач адзін аднаму. Напрамкі вектараў на ICM (мал. 5, А) і OCM (мал. 5, б) адпаведна ў адным пункце процілеглыя, што таксама падкрэсліваецца колерам: там, дзе на ICM чырвоны колер, на OCM – сіні, і наадварот. Чорны колер на ICM-і OCM-картах азначае адсутнасць руху пікселяў або іх нязначнае зрушэнне. Таксама варта адзначыць, што чым ярчэй колер на картах, тым больш інтэнсіўнасць выхаду/ўваходу пікселяў у вобласці.

Мал. 5. Візуалізацыя ICM-карты (а) і OCM-карты (б)

Заключэнне

Праведзеныя даследаванні паказалі, што з дапамогай карт руху і патоку можна адрозніваць групы людзей і любыя аб’екты, напрамкі іх руху або статычнасць, а таксама адносіны груп, аб’ектаў напрамкі: паралельны (рух у адным кірунку), супрацьлеглы (рух папярок адзін аднаго або проста ў супрацьлеглыя напрамкі), перпендыкулярны. Выкарыстанне нейроннай сеткі дазваляе больш дакладна і хутка разлічваць аптычны паток і больш дакладна вызначаць вобласці руху груп людзей. Вылічэнне інтэгральнага аптычнага патоку дазваляе пазбавіцца ад шуму і адначасова атрымаць больш дакладныя межы аб’ектаў, якія рухаюцца, і візуалізацыю напрамкаў іх руху.

Прапанаваны падыход дае магчымасць вызначыць інтэнсіўнасць руху асобных груп людзей: дзе вектар зрушэння больш ці адпаведна колер больш яркі, там зрушэнне пікселяў больш, рух пешаходаў больш інтэнсіўны, а дзе малюнак вектара менш, а таксама яго каляровая візуалізацыя больш цьмяная, там людзі і пікселі, якія складаюць малюнак, рухаюцца павольна, хоць і напрамкі руху, а адпаведна і колер, супадаюць з суседнімі. Таксама візуалізацыя з дапамогай адлюстравання вектараў інтэгральнага аптычнага патоку можа накладвацца на кадр і відавочна паказваць, з якой кропкі піксель ссоўваецца, у якім кірунку і з якой інтэнсіўнасцю прапарцыйна даўжыні малюнка вектара. З дапамогай змены параметраў сеткі (шчыльнасці) і стандартызацыі даўжыні атрыманых вектараў прадастаўлена магчымасць аналізаваць кірунак, інтэнсіўнасць і характар руху як цэлага натоўпу, так і асобных яе падгруп, аб’ектаў – людзей, выдзеленых на падставе груп вектараў, блізкіх па даўжыні і кірунку.

Аднак сетку і стандартызацыю вектараў варта падбіраць пад канкрэтны выпадак і наладжваць у залежнасці ад мэты: калі трэба вызначыць больш дакладна межы натоўпу, вылучыць падгрупы, то сетку лепш рабіць больш дробнай, а каб паказаць інтэнсіўнасць зрушэння і параўнаць яе паміж падгрупамі і асобнымі ўдзельнікамі натоўпу, то сетку лепш зрабіць з меншай шчыльнасцю вузлоў, але тады патэнцыйна могуць размывацца межы натоўпу і губляцца яе аб’екты.

Выкарыстоўваючы стандартызацыю вектараў, можна захаваць даныя і прапарцыйна адлюстраваць зрушэнне, але калі ў кадры ёсць пікселі, якія рухаюцца вельмі хутка і вельмі павольныя ў параўнанні з імі (але не фон, а менавіта рухомыя аб’екты), то ў выніку стандартызацыі менш хуткія элементы натоўпу і цэлыя групы становяцца менш прыкметнымі на фоне вялікіх вектараў зрушэнняў.

Ранейшае даследаванне Раней Наступнае даследаванне Далей