Архив статей журнала
В настоящее время сбор и обработка персональных данных широко применяется при предоставлении цифровых услуг в сети Интернет. Информация о том, каким образом осуществляется их сбор и обработка, должна быть представлена в политиках конфиденциальности и/или пользовательских соглашения. Несмотря на то, что число утечек персональных данных у операторов различных цифровых сервисов с каждым годом растет, пользователи невнимательно читают данные документы, и часто, давая согласие на обработку персональных данных, они не знают, какие данные собираются, сколько они хранятся и в каких целях они используются. Одним из возможных решений данной проблемы является повышение читаемости пользовательских соглашений с помощью средств поддержки принятия решений, представляющих пользовательские соглашения в более простом для понимания виде, например, в виде инфографики, краткого описания или количественных оценок рисков, связанных с обработкой персональных данных. Однако, разработка таких средств требует использования структурированного и размеченного набора данных. Корпусы документов, которые удовлетворяют данным требованиям, существуют, однако все они состоят из соглашений, написанных на английском языке, аналогичных наборов данных на русском языке нет. В настоящей работе представлены методика формирования корпуса пользовательских соглашений на русском языке, методика его очистки, а также инструменты, реализующих данные методики. В результате применения разработанных программных средств был создан корпус, состоящий из 7510 очищенных русскоязычных пользовательских соглашений. Кроме того, в работе приведены результаты статистического анализа корпуса, проясняющего его некоторые особенности, что может быть использовано в дальнейших исследованиях, нацеленных на повышение прозрачности пользовательских соглашений для конечных пользователей.