Настоящая статья посвящена изложению теоретических и прикладных принципов работы по автоматическому извлечению терминов из научных текстов. Работа выполняется в рамках государственного задания по теме «Лингвосемиотическая гетерогенность научной картины мира: теоретическое и лингводидактическое описание». Цель исследования заключается в извлечении терминов из подготовленного корпуса научных текстов. Основной задачей на данном этапе исследования было выявить конкорданс определенной терминологии, то есть обозначить список всех употреблений заданного языкового выражения при помощи приложений для автоматической обработки текстов (АОТ). Практическим материалом являются научные статьи по направлению «Науки о Земле». Извлечение терминов при помощи автоматических систем является перспективным направлением современной прикладной лингвистики, так как существенно упрощает и ускоряет процесс создания терминосистем для узкоспециализированных предметных областей и для междисциплинарных направлений, которые находятся на стыке нескольких наук и требует определенного терминологического аппарата. Оценка рабочего процесса извлечения, проведенная с использованием большого набора данных, показала хорошую производительность для большинства типов данных. В этой статье мы описываем общую архитектуру рабочего процесса и предоставляем подробную информацию о реализации отдельных этапов. В результате проделанной работы отмечаем, что полностью перейти на автоматическую обработку текстов на данный момент весьма проблематично, так как полученные результаты не всегда являются точными и могут содержать ошибки. Перспектива исследования связана с адаптацией существующих моделей под определенные научное направления, создание цифровой языковой модели определенных терминосистем и её обучение.
Сайт https://scinetwork.ru (далее – сайт) работает по принципу агрегатора – собирает и структурирует информацию из публичных источников в сети Интернет, то есть передает полнотекстовую информацию о товарных знаках в том виде, в котором она содержится в открытом доступе.
Сайт и администрация сайта не используют отображаемые на сайте товарные знаки в коммерческих и рекламных целях, не декларируют своего участия в процессе их государственной регистрации, не заявляют о своих исключительных правах на товарные знаки, а также не гарантируют точность, полноту и достоверность информации.
Все права на товарные знаки принадлежат их законным владельцам!
Сайт носит исключительно информационный характер, и предоставляемые им сведения являются открытыми публичными данными.
Администрация сайта не несет ответственность за какие бы то ни было убытки, возникающие в результате доступа и использования сайта.
Спасибо, понятно.