Глубокая нейронная сеть архитектуры трансформер для оценки и прогноза параметров состояния экосистем на территориях с высоким уровнем радиоактивного загрязнения

Исследования / Глубокая нейронная сеть архитектуры трансформер для оценки и прогноза параметров состояния экосистем на территориях с высоким уровнем радиоактивного загрязнения

А. Н. Никитин, И. А. Чешик, Е. В. Мищенко, Д. В. Сухарева, О. А. Шуранкова, М. В. Кудин, С. А. Калиниченко

Параметры накопления 137Cs в компонентах лесных экосистем имеют высокую вариабельность и сложную зависимость от факторов окружающей среды, что затрудняет прогноз соответствия древесины на территориях с высоким уровнем радиоактивного загрязнения санитарно-гигиеническим нормативам. С целью решения данной проблемы проведена оценка возможности использования мультиспектральных спутниковых снимков для оценки коэффициента перехода радиоактивного изотопа цезия в древесину.

Мультиспектральные данные спутникового обследования Земли в настоящее время активно используются для оценки различных аспектов состояния растительного и почвенного покрова: тип растительного покрова, биологическая продуктивность и стресс растений, тип почвы, обеспеченность элементами питания и влагообеспеченность, запасы органического вещества в почве и другие параметры состояния. Спектральный отклик растительного покрова косвенно отражает почвенные характеристики, а также может использоваться для анализа состояния растений. На основании этого сделано предположение о том, что мультиспектральные данные дистанционных наблюдений можно использовать для оценки параметров модели прогноза накопления радиоактивных веществ в расте- ниях. В частности, представляет интерес оценка возможности использования данных Sentinel-2 для прогноза накопления P137PCs в древесине сосны, произрастающей в Полесском государственном радиационно-экологическом заповеднике.

Использование глубоких нейронных сетей позволяет автоматизировать задачу поиска и конструирования входных параметров моделей. Данная задача решается одновременно с обучением модели. Скрытый слой или слои модели можно рассматривать в качестве скрытого представления (embedding), являющегося вектором в виртуальном многомерном пространстве возможных состояний моделируемой системы.

Авторами сделано предположение, что совокупность спектров отражения в видимом и инфракрасном диапазонах поверхности экосистемы, полученных в различные моменты времени, несет в себе информацию о ее состоянии, включая видовой состав, значения эдафических, климатических, биотических и антропогенных факторов и т. п. Эта информация может быть использована в том числе и для определения параметров накопления техногенных радионуклидов в компонентах экосистемы. С другой стороны, временной набор фрагментов мультиспектральных спутниковых изображений поверхности экосистемы может использоваться для кодирования вектора скрытого представления экосистемы. Обучение модели для его вычисления может осуществляться без учителя с использованием коллекции снимков спутниковых наблюдений за поверхностью Земли.

На данный момент одной из наиболее совершенных архитектур глубоких нейронных сетей для решения широкого круга задач являются трансформеры, построенные на основе механизма автовнимания. В обзоре Ghaffarian и др. было показано, что механизм внимания, как правило, улучшает показатели моделей для обработки изображений дистанционного зондирования. Мультиспектральное представление поверхности естественных экосистем имеет выраженные закономерности временной динамики как сезонной, так и более продолжительной, обусловленной сукцессионными процессами. Спектральная динамика содержит большой объем семантической информации, имеющей свое выражение в видовых, фено- логических и других особенностях растительных сообществ. Это положение было наглядно показано в работе. Yuan и Lin создали модель, основанную на нескольких слоях трансформеров, для семантической классификации объектов на спутниковых мультиспектральных снимках, извлекающей значимые спектрально-временные структуры, в процессе обучения без учителя с маскированием случайных элементов во временной последовательности. Обученная на восстановлении этих элементов глубокая нейронная сеть в дальнейшем относительно легко дообучается на ограни- ченном наборе размеченных данных для решения задачи семантической классификации.

В модель BERT наряду с последовательными изменениями во времени авторами интегрировано пространственное измерение. Пространственная структура оптического представления экосистем в данных дистанционного зондирования несет важную экологическую информацию и не может быть полностью выведена из временной и спектральной осей. Сама по себе она позволяет решать множество сложных задач. Гипотезой настоящего исследования явилось предположение, что глубокая нейронная сеть, обученная на выявление закономерностей пространственно-спектрально-временной структуры экосистем, должна содержать в векторах скрытого состояния информацию о параметрах состояния этих экосистем, что позволяет получать оценку их значений.

Материалы и методы

Исследования основаны на результатах обследования 1033 пробных площадок, заложенных в сосновых насаждениях на территориях с высоким уровнем радиоактивного загрязнения. На площадках определена плотность загрязнения почвы 137Cs и удельная активность данного радионуклида в неокоренной деловой древесине сосны. На основании этих значений определены коэффициенты перехода радионуклида из почвы в неокоренную древесину, представляющие собой отношение его удельной активности в древесине к плотности загрязнения почвы.

Плотность загрязнения 137Cs обследованных участков лесных насаждений составляла от 33 до 10496 кБк/м² со средним значением 559 кБк/м² и межквартильным интервалом 179–596 кБк/м². При этом содержание 137Cs в неокоренной древесине составляло от 18 до 34214 Бк/кг со средним значением 1120 Бк/кг и межквартильным интервалом 208–923 Бк/кг. Допустимому уровню содержания 137Cs 740 Бк/кг (лесоматериалы круглые для строительства стен жилых зданий) соответствует древесина на 68,4 % обследованных участках, допустимому уровню 1480 Бк/кг (лесоматериалы круглые прочие) – на 86,7 % обследованных участках.

Результаты обследования свидетельствуют о широком варьировании коэффициента перехода P137PCs из почвы в неокоренную древесину сосны – от 0,07 до 19,01 ×10P-3P м2·кг-1 со средним значением 2,19 ×10-3 м2·кг-1 и медианой 1,63 ×10P-3P м2·кг-1.

Модель RS-BERT

Авторами разработана единая (end-to-end) архитектура глубокой нейронной сети с несколькими режимами обучения: предобучения исключительно на данных дистанционного зондирования Земли (мультиспектральных снимках Sentinel-2) и дообучения на данных дистанционного зондирования Земли, размеченных на основании наземных наблюдений в конкретных участках лесных экосистем. Название данной глубокой нейронной сети RS-BERT отражает тот факт, что она построена на основе архитектуры BERT и предназначена для решения задач обработки данных дистанционного зондирования Земли (Remote Sensing BERT).

Собственно модель RS-BERT состоит из четырех основных компонентов:

1) кодировщика, переводящего мультиспектральные данные и метку времени в вектор внутреннего состояния объекта с размерностью (r);

2) нескольких слоев стандартных трансформеров, представляющих ядро архитектуры нейронной сети;

3) декодера для формирования мультиспектрального представления из вектора скрытого состояния (используется при обучении без учителя);

4) декодера для проекции на ось параметра состояния экосистемы из вектора скрытого состояния (используется при дообучении модели).
В испытанной реализации модели пространственный размер фрагмента мультиспектральных данных Sentinel-2 на входе составляет 320×320 м, что соответствует входным матрицам размером 4×32×32 для четырех каналов с пространственным разрешением 10 м и 6×16×16 для шести каналов с пространственным разрешением 20 м.

Исходный вектор проходит через шесть слоев трансформеров, в которых осуществляется взаимодействие между промежуточными векторами скрытого представления данного участка в другие моменты времени. На выходе последнего трансформера формируется r-мерный вектор скрытого состояния объекта (эмбеддинг), в котором заключается наиболее важная спектрально-пространственно-временная информация о нем. Таким образом, первые два компонента RS-BERT выступают в роли репрезентативной модели. Третий и четвертый компоненты позволяют декодировать представление объекта из эмбеддинга в целевые характеристики.

Трансформер построен по классической схеме. Каждый его блок состоит из двух основных компонентов: множественного внимания (multy-head attention) и двухслойного персептрона (рисунок). Кроме того, каждый компонент снабжен замыкающей связью и послойной нормализацией. Множественное внимание состоит из H параллельных элементов внимания, построенных на масштабирующем векторном умножении. Каждый из этих элементов внимания называется головкой (head).

Схема блока трансформера, состоящего в каждом слое из блока мультивнимания (Multy-Head Attention),

двухслойного персептрона (Feed Forward) и двух блоков нормализации и сложения (Add & Normalize).

Внутри блока имеются две замыкающие связи

На выходе последнего слоя трансформера формируются векторы скрытого состояния для каждого момента времени. В качестве вектора скрытого состояния экосистемы используется эмбеддинг для заданного момента времени.

Декодер в мультиспектральное представление объекта преобразует вектор скрытого состояния в каналы мультиспектрального снимка. Он используется для обучения RS-BERT без учителя. С учетом предположения, что для прогноза состояния пространственного фрагмента экосистемы важна информация не только об этом фрагменте, но и о его окружении, пространственный размер мультиспектрального снимка выхода (40×40 м) меньше размера на входе (320×320 м).

Формирование мультиспектрального снимка осуществляется посредством двух слоев транспонированной свертки со сверткой с единичным размером фильтра между ними для приведения количества каналов на выходе модели до количества каналов в мультиспектральном снимке. Пространственное разрешение всех каналов на выходе составляет 10 м. Для расчета среднеквадратичной ошибки с реальными данными каналы с более грубым пространственным разрешением проходят через агрегацию усреднением. Функцией потерь для обучения модели без учителя является среднеквадратичная ошибка между наблюдаемыми и предсказанными данными. Обучение без учителя производится посредством решения моделью за- дачи восстановления мультиспектрального представления заданного участка на основании серии предыдущих по времени (в масштабе нескольких лет) мультиспектральных представлений данного участка. Таким образом на этапе предобучения решается задача регрессии с набором выходных значений. Прогнозируемое мультиспектральное представление участка формируется элементом глубокой нейронной сети – мультиспектральным декодером. На вход мультиспектрального декодера подается вектор скрытого представления участка лесной экосистемы в заданный момент времени. По нашей гипотезе, в векторе скрытого состояния закодировано не только мультиспектральное представление участка, но и параметры состояния экосистемы. Извлечение этих параметров состояния, включая коэффициенты перехода радионуклидов, из вектора скрытого состояния может быть произведено с помощью соответствующих декодеров, являющихся слоями нейронной сети, дообучаемыми впоследствии на размеченных данных.

Декодер параметров состояния экосистемы используется для получения целевого параметра состояния. В настоящей работе на выходе декодера параметра состояния – коэффициент перехода 137Cs из почвы в неокоренную древесину сосны. Данный компонент состоит из двухслойного персептрона с функцией активации ReLU между ними. На вход декодера подается вектор скрытого состояния последнего элемента в последовательности, генерируемого моделью для заданного времени.

Для обучения модели на обоих этапах использован алгоритм Adam с базовой скоростью обучения 0,0001. В схему обучения добавлен этап разогрева на протяжении 30 эпох и последующее экспоненциальное уменьшение темпа обучения. Для повышения уровня обобщения модели принято решение о включении дропаута в блоки слоев трансформеров. Уровень дропаута составляет 0,1. Дообучение на размеченных данных осуществляется на протяжении 200 эпох. Размер пакета как на этапе предобучения, так и при дообучении составляет 64. При дообучении модели параметры энкодера и слоев трансформера замораживаются (остаются неизменными).

Данные для предварительного обучения модели представляют собой элементы мультиспектральных снимков Sentinel-2 (Level-2A), отобранные в случайных географических позициях в пределах лесных насаждений на территории Полесского государственного радиационно-экологического заповедника. Для каждой из позиций имеется не менее 16 снимков, полученных в течение вегетационных периодов 2017 и 2018 годов. В набор включены снимки, захватывающие период времени от начала до окончания вегетационного периода. В том случае если географическая позиция закрыта облаками, снимок исключался из набора.

Дообучение глубокой нейронной сети RS-BERT для определения коэффициента перехода 137Cs из почвы в неокоренную древесину сосны осуществлялось на тренировочной выборке, составляющей 60% от набора данных, собранных на пробных площадках. Аугментация данных осуществлялась посредством отбора фрагментов снимков Sentinel-2 с центрами на расстоянии друг от друга 10 м по широте и долготе и сосредоточенных в 40 м вокруг центра пункта проведения полевых исследований. Кроме того, 15 снимков для подачи на вход модели отбирались рандомизированно из полного набора данных, объем которого для каждой позиции составлял до 50 снимков. Вектор скрытого состояния последнего снимка в последовательности моделировался на дату 15.11.2018 и использовался для подачи в декодер коэффициента перехода.

Результаты и обсуждение

Обычно прогноз загрязнения древесины техногенными радионуклидами (137Cs, ⁹⁰Sr) осуществляется на основе типологической принадлежности насаждения (ТЛ) и типа лесорастительных условий по Воробьеву-Погребняку (ТЛУ). Преимуществами такого подхода являются его простота и отсутствие необходимости в проведении дополнительных анализов. Он использован в качестве базовой модели сравнения. Применение среднеарифметических значений коэффициента перехода 137Cs из почвы в неокоренную древесину сосны с разбивкой по типам леса позволяет сделать прогноз коэффициента перехода с довольно высоким значением среднеквадратичного отклонения (СКО) – 3,951 (таблица). При использовании в качестве параметра модели типа условий произрастания (ТУМ) СКО несколько выше. Комбинация ТЛ и ТУМ в одной модели практически не изменила СКО относительно модели, основанной только на ТЛ.

Показатели точности испытанных эмпирических моделей прогноза накопления 137Cs в неокоренной древесине сосны

Таким образом, использование для прогноза коэффициента перехода 137Cs в неокоренную древесину сосны оставляет высокую степень неопределенности результата. Поэтому поиск альтернативных подходов к решению данной задачи является актуальным.

Оценка адекватности обученной модели RS-BERT на тестовой выборке показала, что СКО для коэффициента перехода 137Cs из почвы в неокоренную древесину составляет 2,397. Это является лучшим результатом среди испытанных методов. Данная модель позволяет получить наиболее надежный прогноз соответствия древесины РДУ/ЛХ-2001 по таким метрикам, как F-мера, точность и полнота.

Следует отметить, что преимуществом использования данных дистанционного зондирования Земли для прогноза параметров накопления радионуклидов лесными насаждениями является не только более высокая точность, но и отсутствие необходимости в наземном обследовании экосистем и данных лесоустройства. Этот факт актуален для лесных земель на территориях с высокими уровнями радиоактивного загрязнения, где не ведется хозяйственная деятельность, а пребывание человека ограничено исходя из требований радиационной безопасности.

Анализ возможности использования временных серий мультиспектральных спутниковых снимков для прогноза параметров перехода P137Cs в древесину проведен только для ограниченной территории – Полесского государственного радиационно-экологического заповедника, этапа отдаленных радиоэкологических последствий выброса радионуклидов в окружающую среду и одной породы – сосны. Для более обоснованных выводов необходимо расширить географию исследования и перечень лесных пород. Следующим шагом может стать введение в модель фактора времени после радиоактивных выпадений.

Вместе с тем полученный результат подтверждает предположение о возможности построения модели прогноза коэффициента перехода P137PCs в древесину сосны на основании только мультиспектральных спутниковых снимков с обработкой в глубокой нейронной сети. При этом точность полученного прогноза оказывается выше прогноза на основании лесотипологических признаков.

Предыдущее исследование Ранее Следующее исследование Далее