SCI Библиотека
SciNetwork библиотека — это централизованное хранилище научных материалов всего сообщества... ещё…
SciNetwork библиотека — это централизованное хранилище научных материалов всего сообщества... ещё…
Рецензирование текстов сложных документов, то есть документов, как имеющих сложную структуру, так и затрагивающих значительное количество вопросов, является неотъемлемой составляющей образовательного процесса и научно-исследовательской деятельности. Однако данный процесс требует внимания, глубокого анализа и индивидуального подхода, что сложно обеспечить при возрастающем объеме научных работ. В связи с этим актуальной становится задача автоматизации рецензирования. Целью данного исследования является сравнительный анализ методов автоматизации рецензирования научных текстов для выявления наиболее эффективных подходов. Для проведения обзора было проанализировано 176 актуальных исследовательских и обзорных статей из открытых баз ScienceDirect и IEEExplore, опубликованных не ранее 1 января 2015 г., из которых было выбрано 40. Выбранные источники были разделены на четыре группы по виду используемых методов: статистические методы, методы обработки естественного языка с машинным обучением, большие языковые модели, в том числе с дополнительными функциями. Для каждой из групп методов выявлены основные функции и оценена глубина решения задачи рецензирования. Проведенный сравнительный анализ методов показывает, что наибольшую эффективность и глубину решения задачи рецензирования показывают большие языковые модели с дополнительными функциями (прежде всего дополнительно обученные). Вместе с тем для более эффективного использования вычислительных ресурсов предлагается комплексный подход, объединяющий как большие языковые модели, так и методы обработки естественного языка.
В обработке естественно-языковой информации актуальна проблема выявления текстов определенной семантической направленности и определения их источников. Это требуется в анализе новостных потоков, чатов мессенджеров, социальных сетей, проверке документов на плагиат и других подобных задачах. Целью работы является обоснование концептуальной модели выявления в естественно-языковых потоках текстов определенной семантической направленности по формальным описаниям их источников. Анализ известных подходов показал потребность в собственном инструментарии для решения проблемы. В работе предлагается семантическую направленность задавать сценариями языка формальной грамматики гипотетического семантического объекта, сценарии представлять последовательностями характеристик семантического словаря и направленность текста определять семантической близостью сценарию. Бесконечность языка сценариев и отсутствие информации об исходном тексте исключают простой перебор, поэтому предполагаемый сценарий конструируется. Процесс организуется последовательным определением семантического сходства токенов текста характеристикам и их сборкой в предполагаемый сценарий, проверяемый на принадлежность языку. Для семантического сравнения текстов и сценариев сконструированы функции семантического подобия, общий и частный алгоритмы выявления текстов определенной семантической направленности. В общем алгоритме разбор сводится к построению вывода в формальной грамматике, для регулярных грамматик разбор выполняется системой переходов. Для ускорения сборка предполагаемого сценария совмещается с грамматическим разбором и используется механизм бек-трекинга. Точность алгоритмов определяется фактической близостью текстов сценариям. В работе приводится состав разработанного программного комплекса, тестирование которого подтверждает теоретические результаты. Исследование развивает фундаментальные основы математического моделирования естественно-языковой обработки и предлагает новые эффективные вычислительные алгоритмы для комплексов проблемно-ориентированных программ.
Статья посвящена исследованию возможности разбивать на классы текстовые сообщения школьников в социальной сети «ВКонтакте». Классификация основывается на методах работы с естественным языком (NLP).
В данной работе рассматривается применение методов имитационного и математического моделирования к решению классической медицинской задачи - прогнозированию развития заболеваемости. Качественный прогноз распространения заболевания достижим только на основе адекватных математических моделей.
В работе приведен краткий теоретический обзор существующих подходов к решению задачи классификации намерений пользователей на основе текстовых сообщений. Предложен классификатор на основе текстового трансформера. Рассмотрены процессы обучения и использования модели. В рамках эксперимента обучено несколько демонстрационных вариантов классификатора для корпоративной диалоговой системы. Приведены показатели качества моделей в виде совокупности значений основных метрик и визуализаций, применяемых при оценке классификаторов
Рассматриваются регулярные, контекстно-свободные и контекстно-зависимые грамматики, их основные свойства и возможности применения при создании документов на основе шаблона в формате LaTeX. Описывается конкретный набор грамматик, которые могут использоваться для разбора структуры документов, включая описание таблиц, списков и блоков текста. Применение данного подхода может значительно упростить и автоматизировать процесс создания и редактирования документов.
В статье рассматривается проектирование и реализация построения рекомендаций в web-приложении онлайн-библиотеки. Исследуются такие методы построения рекомендаций, как контентная и коллаборативная фильтрации, и возможные варианты их реализации. В числе исследованных вариантов - такие методы машинного обучения, как кластеризация и регрессия, представленные тематическим моделированием и прогнозированием предпочтений, и в статье описываются алгоритмы, лежащие в основе каждого из выбранных методов, а также представляются результаты работы полученных моделей. Разработанное решение реализовано в виде сервиса онлайн-библиотеки и помогает пользователям с поиском интересующей их литературы среди книг, размещенных на ресурсе.
В статье изложены основные аспекты разработки веб-системы автоматизированного анализа тональности отзывов, представлена целевая функция, описано математическое обеспечение веб-системы. Произведен сравнительный анализ фреймворков парсинга: Selenium, Playwright, BeautifulSoup, Grab, API. Выполнено сравнение модели векторного представления: Bag of Words, TF-IDF, BERT. А также сравнили методы классификации: Логистическая регрессия, Градиентный бустинг, Случайный лес. Описана логика работы программного продукта, определена архитектура системы. Определен набор данных для обучения моделей машинного обучения. В результате разработан веб-сервис СААТО, позволяющий по одной ссылке проанализировать эмоциональность комментариев и откликов.
В работе сравнивается качество работы различных методов определения неявно упоминаемых аспектов социально-экономической жизни в публицистических предложениях на русском языке. Задача определения неявно упоминаемых аспектов является вспомогательной для задач аспектно-ориентированного анализа тональности. Эксперименты проводились на корпусе предложений, извлечённых из политической агитации. Лучшие результаты, с F1-мерой, достигающей 0.84, были получены с использованием эмбеддингов Navec и классификаторов, основанных на методе опорных векторов. Достаточно высокие результаты, с F1-мерой до 0.77, были получены при использовании модели «мешок слов» и наивного байесовского классификатора. Остальные методы показали более низкие результаты. Также в ходе экспериментов было выявлено, что качество определения различных аспектов может достаточно сильно отличаться. Лучше всего определяются аспекты, с которыми в речи связаны характерные слова-маркеры, например, «здравоохранение» и «проведение выборов» Хуже всего определяются упоминания достаточно общих аспектов, таких как «качество управления».
В работе представлены результаты исследования современных моделей текста с целью выявления на их основе семантической близости текстов на английском языке. Задача определения семантического сходства текстов является важной составляющей многих областей обработки естественного языка: машинного перевода, поиска информации, систем вопросов и ответов, искусственного интеллекта в образовании. Авторы решали задачу классификации близости ответов учащихся к эталонному ответу учителя. Для исследования были выбраны нейросетевые языковые модели BERT и GPT, ранее применявшиеся к определению семантического сходства текстов, новая нейросетевая модель Mamba, а так же стилометрические характеристики текста. Эксперименты проводились с двумя корпусами текстов: корпус Text Similarity из открытых источников и собственный корпус, собранный с помощью филологов. Качество решения задачи оценивалось точностью, полнотой и F-мерой. Все нейросетевые языковые модели показали близкое качество F-меры около 86% для большего по размеру корпуса Text Similarity и 50-56% для собственного корпуса авторов. Совсем новым результатом оказалось успешное применение модели mamba. Однако, самым интересным достижением стало применение векторов стилометрических характеристик текста, показавшее 80% F-меры для авторского корпуса и одинаковое с нейросетевыми моделями качество решения задачи для другого корпуса.