Статья: ИДЕНТИФИКАЦИЯ АВТОРА ТЕКСТА ДЛЯ ОТКРЫТОГО МНОЖЕСТВА КАНДИДАТОВ В КОНТЕКСТЕ КИБЕРБЕЗОПАСНОСТИ
В работе рассмотрены методы определения авторства любительских сочинений по мотивам популярных произведений литературы и кинематографа. Данные для проведения исследования включают тексты 5 самых популярных тематик онлайн-библиотеки Ficbook. Наиболее распространенной является задача атрибуции с закрытым набором. Относительно практических задач можно предполагать, что не всегда истинный автор анонимного текста будет присутствовать в списке кандидатов. Поэтому процесс определения автора рассматривался как усложненная модификация классической задачи классификации - приведению к виду открытого множества авторов. Предложенные методы основаны на авторской комбинации fastText и One-Class SVM с отбором информативных признаков и статистических оценках мер сходства векторных представлений. Статистические методы оказались наименее эффективны даже для простого, кросс-тематического, случая, в котором данные методы уступают в точности одноклассовому SVM до 15 %. Для той же кросс-тематической задачи средняя точность авторской методики на основе совместного применения fastText и One-Class SVM составляет 85 %. В сложном случае внутри тематической классификации авторов точность представленной методики варьируется от 75 до 78 % в зависимости от тематической группы
Информация о документе
- Формат документа
- Кол-во страниц
- 1 страница
- Загрузил(а)
- Лицензия
- —
- Доступ
- Всем
- Просмотров
- 2
Информация о статье
- EISSN
- 2310-6018
- Журнал
- МОДЕЛИРОВАНИЕ, ОПТИМИЗАЦИЯ И ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ
- Год публикации
- 2024