Введение
В настоящее время наиболее используемым источником информации является Интернет. Найденная информации позволяет не только получать ответы на конкретные запросы, но и отслеживать тенденции технологического развития в различных прикладных областях. В данной статье понятие «тенденция» формулируется как основное направление, определяющее развитие чего бы то ни было в рассматриваемой области деятельности. Важно не просто выявлять тенденции, но и тщательно их фильтровать, а также понимать причины и следствия развития технологий, потому что количество новых технологий исчисляется тысячами. Если вовремя заметить, что какое-то новшество в скором времени может стать прорывным, то, возможно, стоит сконцентрироваться на изучении технологии развития этого новшества. Определенно, интеллектуальные системы сбора, хранения и обработки информации, дополненные функцией анализа для выявления технологических тенденций, во-первых, пригодятся любому аналитику и стратегу в его текущей работе и, во-вторых, окажут поддержку лицам, принимающим решения. В настоящее время информационно-аналитическая интеллектуальная система (ИАИС), реализующая все эти функции, разрабатывается в УП «Геоинформационные системы».
Технологии обработки информации для выявления тенденций
На рис. 1 показаны основные технологии, применяемые при разработке ИАИС. Сначала собираются данные, которые проходят лингвистический анализ и структуризацию. После этого в автоматизированном режиме строится онтология сущностей, являющаяся семантическим ядром системы и, по сути, служащая базой знаний (БЗ) заданной предметной области. При этом сущности могут быть как однословными, так и состоящими из нескольких слов, например: аппарат, космический аппарат, Белорусский космический аппарат. Между сущностями задаются смысловые отношения. На рис. 2 показан пример онтологии, построенной с помощью редактора онтологий Protégé.
При поиске по запросу информации в БЗ происходит лингвистический анализ запроса, после чего не только осуществляется поиск выделенных сущностей в БЗ, но и рассматриваются отношения между ними.
Рис. 1. Технологии обработки информации для выявления тенденций
Каждая сущность в БЗ получает свой расчетный вес и связана с набором текстов, из которых она была извлечена. Каждое смысловое отношение также получает свой вес в зависимости от общей частотности его использования различными сущностями. Наличие веса сущностей и их отношений позволяет рассчитать веса целых веток или подветок сущностей в онтологии. Именно эти веса и являются основой для аналитики выявления тенденций с использованием методов статистики и методов машинного обучения.
Следует подчеркнуть, что поскольку в систему непрерывно поступают новые тексты, то после их лингвистической обработки веса сущностей пересчитываются. Периодичность пересчета зависит от количества поступлений новых текстов.
Рис. 2. Онтология – семантическое ядро
Поток обработки информации для выявления тенденций
На рис. 3 показана последовательность выявления тенденций.
Рис. 3. Поток обработки информации для выявления тенденций
При разработке системы на первом этапе обрабатывались тексты, как правило содержащие информацию, уже имеющую некоторый срок давности, поскольку публикация осуществляется после их длительного времени накопления издательством и рецензирования, например: тезисы научных конференций, научные статьи в журналах, патенты, профильные стандарты и др. Затем осуществлялся этап сбора информации из новостных веб-источников, как RSS-каналов, так и стандартных новостных интернет-страниц.
После лингвистической обработки, включающей в себя определение сущностей-аналогов и синонимов, все выделенные сущности располагаются в ветках онтологии, для них рассчитываются веса и устанавливаются указатели на текстовые источники, хранящиеся в БЗ.
Теперь по требованию пользователя, определяющего период и тип публикаций, например: с 2020 по 2023 г. только журналы и новости, происходит вычисление весов хранящихся в онтологии сущностей, определяющих тенденции.
Окончательное решение, на какие тенденции обратить внимание, принимает эксперт или лицо, принимающее это решение.
Перспективы развития системы
Перспективным представляется использование универсального семантического кода (УСК). УСК является моделью семантического представления знаний и задает аксиомы вывода одних знаний из других. С помощью УСК можно вывести последовательности выполнения действий в триадах субъект-действие-объект. Последовательности таких триад не являются произвольными и исчисляются с помощью набора семантических аксиом. Предполагается, что, вычисляя веса таких последовательностей, можно будет выявлять не только некоторые тенденции, но и их последовательную эволюцию.
Подход с использованием УСК в данный момент находится в стадии исследования и требует глубокой практической проработки.
Заключение
По существу, ИАИС – это платформа для расчета количественных оценок тенденций в заданной предметной области на регулярной основе, за полгода, за год или даже за месяц, поскольку новостная информация поступает ежедневно из множества интернет-источников.
Как правило, в средних и больших компаниях поисками прорывных технологий занимается подразделение стратегических инициатив, исследующее профильную предметную область. В результате мониторинга тенденций определяется список технологий, которые компания может начать развивать в ближайшее время.
С увеличением количества анализируемой информации добавляются новые характеристики, влияющие на веса в источнике, и расширяются списки источников информации. При этом улучшается качество моделей и алгоритмов, чтобы минимизировать ошибки классификации и кластеризации.