Статья посвящена решению научной проблемы создания верхнеуровневого описания модели онтологии знаний для интеллектуальных систем обработки и анализа текстов на естественном языке, построенной на основе оригинальной компонентной архитектуры, обеспечивающей необходимый уровень детализации спецификаций анализируемой текстовой информации. Актуальность данной задачи обусловлена необходимостью развития теоретических основ построения информационных моделей семантических зависимостей внутри текстов на естественном языке. Автором даны определения основным терминам исследуемой предметной области. Представлена формализованная постановка решаемой задачи. Проблема «информационного взрыва», причиной возникновения которой стал экспоненциальный рост объемов цифровой информации, привела к ситуации, когда до 95% информационного потока содержит неструктурированные данные. В подобных условиях, крайне актуальной становится задача создания эффективных интеллектуальных систем поиска и приобретения знаний, в том числе, интеллектуальных систем обработки и анализа текстов на естественном языке. Научным направлением решения этой частной задачи является Text Mining (TM) - раскопка знаний в текстовой информации. В качестве примера прикладной задачи использования приобретенных знаний, в данном исследовании, рассматривается значимая проблема информационной поддержки процессов предупреждения и/или ликвидации последствий чрезвычайных ситуаций. В данной задаче исходными данными являются потоки текстовых сообщений (новостной информации, отчетов о техническом состоянии техногенных объектов, информации о природных явлениях и т.п.), поступающих в центры принятия решений, а на выходе формируются прогностические оценки и/или конкретные инструкции относительно оценки ситуации и предпринимаемых действий определенными специалистами. Одной из причин, сдерживающих развитие интеллектуальных систем обработки и анализа текста для решения задач поиска, приобретения и использования знаний, является недостаточно высокий уровень эффективности моделей и алгоритмов, обеспечивающих комплексное решение описанных выше задач искусственного интеллекта с учетом особенностей семантики и контекста.
В данной статье представлено аналитическое исследование особенностей двух типов парсинга, а именно синтаксический анализ составляющих (constituency parsing) и синтаксический анализ зависимостей (dependency parsing). Также в рамках проведенного исследования разработан алгоритм оптимизации извлечения ключевых слов, отличающийся применением функции извлечения именных фраз, предоставляемой парсером, для фильтрации неподходящих фраз. Алгоритм реализован с помощью трех разных парсеров: SpaCy, AllenNLP и Stazna. Эффективность предложенного алгоритма сравнивалась с двумя популярными методами (Yake, Rake) на наборе данных с английскими текстами. Результаты экспериментов показали, что предложенный алгоритм с парсером SpaCy превосходит другие алгоритмы извлечения ключевых слов с точки зрения точности и скорости. Для парсера AllenNLP и Stanza алгоритм так же отличается точностью, но требует гораздо большего времени выполнения. Полученные результаты позволяют более детально оценить преимущества и недостатки изучаемых в работе парсеров, а также определить направления дальнейших исследований. Время работы парсера SpaCy значительно меньше, чем у двух других парсеров, потому что парсеры, которые используют переходы, применяют детерминированный или машинно-обучаемый набор действий для пошагового построения дерева зависимостей. Они обычно работают быстрее и требуют меньше памяти по сравнению с парсерами, основанными на графах, что делает их более эффективными для анализа больших объемов текста. С другой стороны, AllenNLP и Stanza используют модели парсинга на основе графов, которые опираются на миллионы признаков, что ограничивает их способность к обобщению и замедляет скорость анализа по сравнению с парсерами на основе переходов. Задача достижения баланса между точностью и скоростью лингвистического парсера является открытой темой, требующей дальнейших исследований в связи с важностью данной проблемы для повышения эффективности текстового анализа, особенно в приложениях, требующих точности при работе в реальном масштабе времени. С этой целью авторы планируют проведение дальнейших исследований возможных решений для достижения такого баланса.