Архив статей журнала
Технологии обработки естественного языка (natural language processing – NLP) в одном из своих применений обеспечивают эффективное исследование закономерностей и тенденций в больших наборах текстовых данных. Текстовые данные по безопасности полетов, представленные в виде отчетов по расследованию авиационных происшествий, являются перспективным объектом для извлечения новой полезной информации, которую можно использовать как при управлении безопасностью полетов, так и в рамках тренажерной подготовки. В данной работе рассматриваются вопросы применения технологий NLP для исследования корпуса отчетов по безопасности полетов ПАО «Аэрофлот – российские авиалинии». Целью исследования является разработка метода выявления актуальных тем тренажерной подготовки пилотов. Представлен анализ существующих зарубежных исследований в области интеллектуального анализа текстовой информации в гражданской авиации. Выявлено, что за рубежом активно применяют технологии NLP для изучения отчетов по безопасности полетов. В статье представлена схема метода выявления актуальных тем тренажерной подготовки пилотов, основанного на кластеризации отчетов по безопасности полетов. Описаны процедуры предварительной обработки текста и построение его векторного пространства. Научной новизной подхода является то, что в отличие от предыдущих работ предлагается использовать полное векторное представление отчетов по безопасности полетов, которое строится объединением матриц тематических и семантических векторов. Проведена апробация предложенного метода. Анализируемый корпус текстов составил 1080 отчетов. В результате применения алгоритма кластеризации были идентифицированы 36 кластеров, которые затем были визуализированы с помощью алгоритма t-распределенного стохастического эмбеддинга соседей (t-distributed Stochastic Neighbor Embedding – t-SNE). Практическая значимость результатов исследования заключается в том, что подход, основанный на кластеризации отчетов, позволит проводить более глубокий анализ отчетов по безопасности полетов, что может упростить и ускорить работу как специалистов по управлению безопасностью полетов, так и инструкторов по тренажерной подготовке пилотов.
В работе рассматриваются вопросы применения предварительно обученных нейронных сетей для решения задачи обратного поиска рентгеновских изображений запрещенных предметов и веществ. Целью работы является проведение анализа и обоснование путей повышения эффективности систем распознавания рентгеновских изображений багажа и ручной клади пассажиров. Представлен анализ существующих отечественных и зарубежных работ в области распознавания рентгеновских изображений багажа и ручной клади пассажиров. Выявлено, что, несмотря на достигнутые результаты по разработке алгоритмов распознавания запрещенных предметов и веществ, они не в полной мере справляются с таким фактором сложности, как наложение предметов. Для решения данной проблемы в работе предлагается дополнительно анализировать те рентгеновские изображения, на которых уверенность в распознавании объектов невысокая. Данный этап включает в себя следующие шаги: сегментация изображений, извлечение признаков сегментированных элементов изображений; поиск схожих изображений по базе данных; принятие решения о классе сегментированных элементов изображений. В данной статье рассматриваются три последних шага. Проанализированы варианты реализации подходов к извлечению признаков из изображений, в частности основанные на применение сверточных автоэнкодеров и предварительно обученных нейронных сетей. Выбран подход, основанный на применении предварительно обученных нейронных сетей. В работе применяется нейронная сеть архитектуры ResNet-50, предварительно обученная на коллекции ImageNet. Для применения данной модели для извлечения векторов признаков изображений, был предварительно удален последний слой классификации. Все предыдущие слои модели кодируют изображение в вектор. ResNet-50 генерирует 2048-мерный вектор признаков изображений. Для понижения размерности векторов признаков изображений используется метод главных компонент. Решение о том, является ли сегментированный элемент изображения запрещенным предметом или веществом, рассматривается как задача обратного поиска с применением алгоритма K‑ближайших соседей. Класс элемента рентгеновского изображения в данном случае – это класс, наиболее часто встречающийся среди k ближайших соседей. В целях апробации предложенного подхода был сформирован обучающий набор данных, включающий 4 635 изображений отдельных предметов и веществ, которые могут встречаться в багаже и ручной клади пассажиров. Представлен сравнительный анализ времени индексации и поиска изображений при различных алгоритмах и количестве признаков. Представлен сравнительный анализ точности модели. Сделан вывод, что наиболее приемлемым является алгоритм Brute force в сочетании с методом главных компонент.