Статья: БАЗОВЫЕ МЕТОДИКИ АНАЛИЗА ЯЗЫКОВЫХ КАРТИН ПОЛИТИКИ С ПОМОЩЬЮ ЯЗЫКА ПРОГРАММИРОВАНИЯ PYTHON И БИБЛИОТЕКИ NLTK (НА МАТЕРИАЛАХ КОРПУСОВ БРИТАНСКОГО ПАРЛАМЕНТСКОГО ДИСКУРСА)

Скачать

В рамках данной статьи предлагается один из возможных вариантов оптимального набора базовых методик, необходимых для изучения языковых картин мира на материалах крупных текстовых корпусов с использованием сочетания языка высокоуровневого языка программирования Python и библиотеки NLTK (Natural Language Toolkit). Необходимость выделения и конкретизации означенного методологического инструментария проистекает из характера тех вызовов, которые стоят перед современной когнитивной лингвистикой и лексикологией в сфере анализа больших неструктурированных данных. Работоспособность и практическая ценность предлагаемых методик демонстрируется на примере составленных автором сплошных параллельных диахронических корпусов дискурса обеих палат британского парламента за период с 2006 по 2023 гг., совокупный объём которых превышает треть миллиарда токенов. Набор предлагаемых методик включает в себя инструменты анализа базовых параметров вокабуляра, инструменты извлечения целевого вокабуляра, а также обработки и визуализации его частотных параметров и сочетаемости. Целесообразность овладения предлагаемыми и систематизируемыми в рамках данной статьи методиками автоматического анализа текста обосновывается с позиции их необходимости как компетентностного минимума в области компьютерных технологий, который способен значительно повысить уровень лингвистических исследований и их научную конкурентоспособность. Автор приходит к выводу о том, что в силу объективно сложившихся условий современному отечественному исследователю языковых картин мира с высокой долей вероятности придётся включить в свой прикладной инструментарий сочетание языка программирования Python и библиотеки NLTK. Предлагаемые в данной статье методики делают возможным гибкое формирование исследовательских протоколов с учётом широкого разнообразия возможных приоритетов. В качестве главного преимущества предлагаемого автором набора методов машинной обработки и количественного анализа текста видится возможность использования практических навыков, полученных в результате её освоения как комфортной компетентностной основы для последующей интеграции овладевшего ими лингвиста в сообщество исследователей наиболее высокотехнологичных и наиболее актуальных на сегодняшний день направлений науки о языке.

Информация о документе

Формат документа: PDF
Кол-во страниц: 1 страница
Загрузил(а): Гагарин Сергей
Лицензия: —
Доступ: Всем

Информация о статье

ISSN: 2410-2423
EISSN: 2782-3717
Журнал: ФИЛОЛОГИЧЕСКИЕ НАУКИ В МГИМО
Год публикации: 2024
Автор(ы): Гагарин С. Н.
Ключевые фразы: корпусная лингвистика, обработка естественного языка, большие данные, КОГНИТИВНАЯ ЛИНГВИСТИКА, ПАРЛАМЕНТСКИЙ ДИСКУРС
УДК: 81. Лингвистика. Языкознание. Языки

Статистика просмотров

Статистика просмотров статьи за 2025 год.

Все права на тексты и товарные знаки принадлежат их законным владельцам. Подробнее...

Сайт https://scinetwork.ru (далее – Сайт) представляет собой платформу, на которой пользователи самостоятельно добавляют и публикуют метаинформацию о материалах разных видов (названия, обложки, аннотации, данные об авторах и т.п.). Администрация Сайта не занимается самостоятельным сбором или первоначальной публикацией этих сведений.

Модерация контента

На Сайте действует постмодерация. Это означает, что материалы, добавляемые пользователями, становятся общедоступными сразу после публикации и проверяются Администрацией Сайта постфактум в разумные сроки.

Использование информации

Администрация Сайта не использует метаданные и обложки документов в коммерческих или рекламных целях для продвижения товаров или услуг и не заявляет о каких-либо правах на представленные объекты интеллектуальной собственности. Все права на документы и сопутствующие материалы принадлежат их законным правообладателям.

Отказ от гарантий

Администрация Сайта не гарантирует точность, полноту и достоверность метаинформации, размещенной пользователями, поскольку не осуществляет ее предварительную проверку.

Ответственность

Сайт носит исключительно информационно-справочный характер. Администрация Сайта не несет ответственности за содержание и достоверность информации, добавленной пользователями, а также за любые убытки, возникшие в связи с использованием или невозможностью использования Сайта и размещенной на нем информации.