Статья: ФОРМИРОВАНИЕ КОРПУСА ПОЛЬЗОВАТЕЛЬСКИХ СОГЛАШЕНИЙ НА РУССКОМ ЯЗЫКЕ (2024)

Читать онлайн

В настоящее время сбор и обработка персональных данных широко применяется при предоставлении цифровых услуг в сети Интернет. Информация о том, каким образом осуществляется их сбор и обработка, должна быть представлена в политиках конфиденциальности и/или пользовательских соглашения. Несмотря на то, что число утечек персональных данных у операторов различных цифровых сервисов с каждым годом растет, пользователи невнимательно читают данные документы, и часто, давая согласие на обработку персональных данных, они не знают, какие данные собираются, сколько они хранятся и в каких целях они используются. Одним из возможных решений данной проблемы является повышение читаемости пользовательских соглашений с помощью средств поддержки принятия решений, представляющих пользовательские соглашения в более простом для понимания виде, например, в виде инфографики, краткого описания или количественных оценок рисков, связанных с обработкой персональных данных. Однако, разработка таких средств требует использования структурированного и размеченного набора данных. Корпусы документов, которые удовлетворяют данным требованиям, существуют, однако все они состоят из соглашений, написанных на английском языке, аналогичных наборов данных на русском языке нет. В настоящей работе представлены методика формирования корпуса пользовательских соглашений на русском языке, методика его очистки, а также инструменты, реализующих данные методики. В результате применения разработанных программных средств был создан корпус, состоящий из 7510 очищенных русскоязычных пользовательских соглашений. Кроме того, в работе приведены результаты статистического анализа корпуса, проясняющего его некоторые особенности, что может быть использовано в дальнейших исследованиях, нацеленных на повышение прозрачности пользовательских соглашений для конечных пользователей.

Ключевые фразы: ТЕКСТОВЫЙ КОРПУС, формирование корпуса, пользовательское соглашение, очистка текстового корпуса
Автор (ы): Кузнецов Михаил Дмитриевич
Журнал: ВЕСТНИК ВОРОНЕЖСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА. СЕРИЯ: СИСТЕМНЫЙ АНАЛИЗ И ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ

Предпросмотр статьи

Идентификаторы и классификаторы

SCI
Информатика
УДК
004.912. Обработка текста
Для цитирования:
КУЗНЕЦОВ М. Д. ФОРМИРОВАНИЕ КОРПУСА ПОЛЬЗОВАТЕЛЬСКИХ СОГЛАШЕНИЙ НА РУССКОМ ЯЗЫКЕ // ВЕСТНИК ВОРОНЕЖСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА. СЕРИЯ: СИСТЕМНЫЙ АНАЛИЗ И ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ. 2024. № 3
Текстовый фрагмент статьи