В работе проведен анализ существующих методов извлечения именованных сущностей из текстов на русском языке. Сформулированы эквивалентная задача классификации и правила разметки именованных сущностей. Предложены подходы, позволяющие повысить эксплуатационные качества классификаторов. Проведен численный эксперимент, в ходе которого обучено несколько моделей. Продемонстрированы преимущества использования предложенных подходов по отдельности и в совокупности.
Идентификаторы и классификаторы
На основе графиков сделан вывод о более высокой стабильности обучения с использованием предлагаемого способа (извлечение объектов на основе рассмотренного выше распределения вероятностей). В то же время видно, что применение сбалансированной перекрестной энтропии не настолько сильно, как ожидалось, повлияло на улучшение эксплуатационных качеств классификаторов. На рисунке 4 представлена пара матриц путаницы для моделей, использующих в качестве функции потерь категориальную перекрестную энтропию. После анализа данных, представленных на рисунке, можно сделать вывод, что использование предложенного подхода к обучению на основе распределения вероятностей позволило существенно повысить качество классификации. Модель, обучаемая классическим способом с последовательным извлечением объектов не смогла определить классы «I-ORG» и «I-LOC» для объектов тестирующей выборки. В то же время модель, обучаемая предлагаемым способом, частично научилась распознавать объекты указанных классов.
Список литературы
-
Khurana D., Koli A., Khatter K., Singh S. Natural language processing: state of the art, current trends and challenges // Multimedia Tools and Applications. 2023. Vol. 82. P. 3713-3744. EDN: OMUYAR
-
Li W. The Advance of Deep Learning Based Named Entity Recognition // Highlights in Science, Engineering and Technology. 2022. Vol. 12. P. 68-73. EDN: MKGKVQ
-
Li J., Wei Q., Ghiasvand O. [et al.]. A comparative study of pre-trained language models for named entity recognition in clinical trial eligibility criteria from multiple corpora // BMC Medical Informatics and Decision Making. 2022. Vol. 22, no. 3. P. 235-1-235-9.
-
Gudivada V. N. Handbook of Statistics. Amsterdam: Elsevier, 2018. Vol. 38. 403 p.
-
Колмогорцев С. В., Сараев П. В. Извлечение библиографии из текстов регулярными выражениями // Новые информационные технологии в автоматизированных системах. 2017. № 20. С. 82-88. EDN: YNADXL
-
Маслова М. А., Орлова Ю. А., Дмитриев А. С. Способы распознавания именованных сущностей в сфере торговли // Инновационные технологии в обучении и производстве: материалы XIV Всерос. заоч. науч.-практ. конф. (Камышин, 15 нояб. 2019 г.) / Волгоград. гос. техн. ун-т (Камышинский филиал). Камышин: Изд-во ВолгГТУ, 2019. Т. 2. С. 116-118. EDN: JWRMHY
-
Аверина М. Д., Дунаева О. А. Задача извлечения именованных сущностей в русском языке // Заметки по информатике и математике: сб. науч. ст. Ярославль: Ярослав. гос. ун-т им. П. Г. Демидова, 2020. Вып. 12. С. 1-8. EDN: YHVWEP
-
Kadhim A. An Evaluation of Preprocessing Techniques for Text Classification // International Journal of Computer Science and Information Security. 2018. Vol. 16, no. 6. P. 22-32.
-
Alshammari N., Alanazi S. The impact of using different annotation schemes on named entity recognition // Egyptian Informatics Journal. 2021. Vol. 22, no. 3. P. 295-302. EDN: ECTLOP
-
Sang E., Buchholz S.Introduction to the CoNLL-2000 Shared Task: Chunking // CONLL/LLL 2000: Proceedings of the fourth conference on computational natural language learning and of the second learning language in logic workshop (Lisbon, Portugal, September 13-14 2000. IEEE, 2000. P. 127-132.
-
Gross S. S., Russakovsky O., Do C. B., Batzoglou S. Training Conditional Random Fields for Maximum Labelwise Accuracy // Advances in Neural Information Processing Systems 19: Proceedings of the Conference (Vancouver, British Columbia, Canada, December 4-7 2006). IEEE, 2006. P. 529-536.
-
Lample G., Ballesteros M., Subramanian S. Neural Architectures for Named Entity Recognition // Proceedings of the Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (San Diego, California, USA, June 1 2016). IEEE, 2016. P. 260-270.
-
Gunawan W., Suhartono D., Purnomo F., Ongko А. Named-Entity Recognition for Indonesian Language using Bidirectional LSTM-CNNs // Procedia Computer Science. 2018. Vol. 135, no 2. P. 425-432.
-
Маслова М. А., Дмитриев А. С., Холкин Д. О. Методы распознавания именованных сущностей в русском языке // Инженерный вестник Дона. 2021. № 7. С. 1-13. EDN: HGLBOT
-
Yan S., Chai J., Wu L. Bidirectional GRU with Multi-Head Attention for Chinese NER // Proceedings of the 5th Information Technology and Mechatronics Engineering Conference (Chongqing, China, June 12-14 2020). P. 1160-1164.
-
Lin T., Goyal P., Girshick R. [et al.]. Focal Loss for Dense Object Detection // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2020. Vol. 42, no. 2. P. 318-327.
Выпуск
Другие статьи выпуска
Статья посвящена цифровизации взаимодействия участников учебного процесса. Разработана диаграмма вариантов использования, учитывающая необходимый функционал пользователей разрабатываемой системы. Рассматривается способ организации механизмов взаимодействия между преподавателями и студентами на базе системы управления взаимоотношениями с клиентами Битрикс24. Приводятся примеры реализации коммуникаций.
В статье рассмотрена концепция эффективной работы с данными, применяемая в программе Microsoft Power BI. Авторы рассматривают основные инструменты, использующиеся в программе, такие как Power Query, Power Pivot, Power View, Сервис Power BI. Использование каждого из них подчиняется концепции эффективной работы с данными, которая подразумевает использование алгоритма четырех шагов. Проведенный анализ указанных инструментов позволяет сделать вывод, что Microsoft Power BI является эффективным инструментом работы с данными и может быть использован в различных сферах деятельности.
Рассматривается задача модерации комментариев с фильтрацией негативного контента. Используется фреймворк PySpark для анализа тональности комментариев на основе библиотеки Apache Spark. Алгоритм считывает текст комментария и определяет его эмоциональный окрас. Инструментарий может использоваться на образовательных веб-сервисах, где можно фильтровать негативные комментарии и предотвращать их появление на сайте, что в свою очередь улучшает качество контента и безопасность для пользователей.
В работе проведено исследование метода контрольных карт для изучения случайного процесса, а также представлены правила их построения. Описаны методики применения контрольных карт для анализа стабильности учебного процесса. Выполнена программная реализация вычисления значений необходимых элементов карт и их отображения на графике. Полученные результаты могут быть полезны для улучшения качества образования и повышения эффективности учебных программ.
В работе рассмотрены особенности измерения формообразующего свойства материала существующими инструментальными методами. Проанализированы зависимости характеристик и целевого признака. Рассмотрена программная реализация алгоритма решения задачи на основе регрессионных моделей машинного обучения. Проведен сравнительный анализ моделей. Определены возможные варианты решения задачи.
Целью настоящей работы является использование методов математического моделирования и разработка математического обеспечения для оптимизации предварительно рассчитанного операционного плана с целью минимизации отклонения вовлечения компонентов в многопериодных смешениях от интегральных значений календарного плана НПЗ.
В работе исследуются методы анализа данных для оптимизации учебных процессов, представлены правила построения моделей анализа данных. Проводится предварительная обработка входящих данных для последующей подстановки в модель. Выполнена программная реализация алгоритма анализа данных и отображения данных на графике. Полученная модель анализа данных встроена в приложение для оптимизации составления расписания и повышения эффективности учебного процесса.
Издательство
- Издательство
- ОмГТУ
- Регион
- Россия, Омск
- Почтовый адрес
- 644050, Российская Федерация, г. Омск, пр-т Мира, д. 11
- Юр. адрес
- 644050, Российская Федерация, г. Омск, пр-т Мира, д. 11
- ФИО
- Корчагин Павел Александрович (Ректор )
- E-mail адрес
- info@omgtu.ru
- Контактный телефон
- +7 (381) 2653407
- Сайт
- https://omgtu.ru/