Мы используем файлы cookie на этом сайте, чтобы улучшить ваш пользовательский опыт.
Пожалуйста, ознакомьтесь с Политикой конфиденциальности для получения более подробной информации.

РАСПОЗНАВАНИЕ ЛИЦ В МАСКАХ ПУТЕМ ВОССТАНОВЛЕНИЯ ЗАКРЫТОЙ ЧАСТИ ЛИЦА
И. Л. Курносов, С. В. Абламейко

Введение 

В последние годы интенсивно разрабатываются системы распознавания, устойчивые к изображениям, на которых лицо чем-то (маской) закрыто. Имеющаяся информация о системах видеонаблюдения ставит под сомнение эффективность существующих классических подходов к распознаванию лиц, ведь они основаны на моделях, натренированных на лицах без масок. Основные подходы к распознаванию лиц в масках базируются на распознавании видимой части лица. Предлагаемый авторами новый подход состоит из следующих шагов: – обнаружить и сегментировать медицинскую маску на изображении; – стереть маску на входном изображении, используя результаты сегментации; – восстановить лицо под маской на обработанном изображении; – для распознавания полученного лица без маски применить любой существующий подход к распознаванию лиц. Далее более детально рассмотрены основные этапы данного подхода. 

Сегментация изображения маски 

 

Модель для сегментации. 

Первым этапом подхода является сегментация маски на изображении лица. Была выбрана нейросетевая модель UNet, специально разработанная для сегментации медицинских изображений. Архитектура состоит из сжимающей части, построенной по принципу классической сверточной сети, и растягивающей, состоящей из возрастающих сверточных слоев и ReLU активаций. 

 

Создание тренировочного набора данных. 

 

Набор данных для тренировки сегментатора маски на лице должен состоять из пар изображений (изображение лица в маске, бинарное отображение маски). На данный момент в свободном доступе не существует такого набора данных, поэтому авторам пришлось создавать его самостоятельно. За основу был выбран инструмент от FaceX-Zoo, использующий ключевые точки лица и UV-преобразование для реалистичной обработки. В качестве исходного набора данных взят CASIA-WebFace. Полученные искусственные изображения были дополнены 400 изображениями из реального мира, которые удалось собрать из различных наборов данных для сегментации частей лица человека. 

 

Организация процесса обучения и результаты сегментации. 

 

Для модели сегментации UNet была взята реализация Pytorch-Unet. Обучение проходило в два этапа. Вначале проводились три эпохи обучения на подмножестве искусственного набора данных в масках, состоящем из 200 тыс. изображений. На этом этапе модель увидела огромное количество лиц, но научилась сегментировать лишь искусственные маски. Затем она была дообучена в течение десяти эпох на комбинированном наборе данных с лицами в масках из реального мира, состоящем из 1400 изображений. Итоговый валидационный Dice-коэффициент составил 0,982. Результаты сегментации тестовых изображений приведены на рис. 1.

Рис. 1. Результаты сегментации на аугментированных (слева) и реальных (справа) изображениях

 

Проведенные эксперименты показали, что сегментация выполняется достаточно хорошо как на тестовых изображениях, где маска надета искусственно тем же способом, что и в тренировочном таборе данных, так и на тестовых изображениях из реального мира. 

Восстановление лица под маской 

 

Модель для генерации лица. 

 

Вторым этапом подхода является восстановление лица под маской на входном изображении по бинарному сегментационному отображению с помощью генеративной состязательной нейронной сети. Выбор модели проходил по результатам соревнования по таким критериям, как высокое качество генерации и высокая скорость работы. Наилучший результат показала модель DMFN (архитектура представлена на рис. 2), которая и была взята за основу.

Рис. 2. Архитектура модели, используемой для генерации лица под маской

 

Создание тренировочного набора данных. 

 

Набор данных для тренировки генератора лица под маской должен состоять из изображений обычных лиц без масок и бинарных масок, соответствующих медицинским маскам, которые якобы надеты на лицо. Для этих целей отлично подойдет ранее созданный и описанный в предыдущем пункте искусственный набор данных для тренировки сегментации маски на лице на базе CASIA-WebFace. Пример пар изображений тренировочного набора данных представлен на рис. 3.

Рис. 3. Пример пар изображений набора данных, использованного при тренировке генеративной сети

 

Организация процесса обучения. 

 

Для тренировки генератора DMFN использовалась его одноименная реализация, предобученная на восстановление произвольных изображений по произвольно расположенной прямоугольной маске. Размер тренировочного набора данных составил 200 тыс. изображений. Изображения были изменены до размера 256х256. Обучение проходило восемь эпох с размером минибатча 4 на видеокарте NVidia GeForce RTX 3060TI и заняло около 12 час. Learning rate для генератора и дискриминатора были одинаковыми и составили 0,0002. Через каждые 100 тыс. минибатчей Learning rate уменьшалась в десять раз. Использовалась L1-регуляризация. 

Результаты экспериментов 

 

Результаты снятия маски с изображения лица представлены на рис. 4. 

Рис. 4. Примеры снятия маски с изображения лица на изображениях искусственного тестового набора данных Labeled Faces in the Wild предложенным подходом. Сверху вниз: входное изображение, результат «предсказанная маска», сгенерированное изображение, истинное

 

Из рис. 4 видно, что инструмент уверенно сегментирует маски на данном наборе. Что касается генерации лица, то получили результат правдоподобного человеческого лица, соответствующего открытой его части. Более того, воспроизведены даже некоторые особенности, такие как форма носа, рта, что способствует улучшению качества распознавания. Результаты обработки набора данных с лицами в масках из реального мира представлены на рис. 5.

Рис. 5. Примеры снятия маски с изображения лица на изображениях реального тестового набора данных Masked Face Recognition предложенным подходом. Сверху вниз: входное изображение, результат «предсказанная маска», сгенерированное изображение

 

Итоговые сравнительные результаты распознавания лиц предложенным подходом на базе полученного инструмента представлены в табл. 1. 

 

Таблица 1 

Сравнение точности распознавания предложенным подходом с существующими

По совокупности результатов на трех тестовых наборах данных предложенный подход демонстрирует наилучшее качество распознавания. Главным достижением является то, что он не уступает оригинальной модели, взятой за основу, в распознавании обычных лиц, но превосходит ее в распознавании лиц в масках. Сравнение предложенного авторами подхода с подходом MobileNetV2 [5] представлено в табл. 2.

 

Таблица 2 

Сравнение подходов в показателях, %

В заключение можно сказать, главное преимущество предложенного подхода – то, что он обеспечивает улучшение точности распознавания лиц в масках без ущерба распознаванию лиц без масок, в то время как все рассмотренные ранее подходы либо не приводят таких данных, либо демонстрируют ухудшение качества распознавания лиц без масок. Данное свойство этого подхода достигается тем, что предложены модели, снимающие маску с лица человека и восстанавливающие лицо под маской в сочетании с существующими моделями распознавания лиц. Таким образом, процесс распознавания лиц без масок остается без изменений.