Архив статей

ИСПОЛЬЗОВАНИЕ ЯЗЫКОВЫХ МОДЕЛЕЙ T5 ДЛЯ ЗАДАЧИ УПРОЩЕНИЯ ТЕКСТА (2023)

Выпуск: T. 36 № 2 (2023)

Авторы: Васильев Д. Д., Пятаева Анна Владимировна

Проблема читаемости текста на естественном русском языке актуальна для людей с различными когнитивными нарушениями и для тех, кто слабо владеет языковыми знаниями, например, трудовых мигрантов и детей. Повышение доступности текстов (инструкций, указаний, рекомендаций) для указанных категорий граждан возможно путем использования автоматизированного алгоритма симплификации текста. В данном исследовании в качестве автоматизированного алгоритма симплификации используются глубокие нейронные архитектуры - трансформеры. В работе были применены следующие языковые модели: ruT5-base-absum, ruT5-base-paraphraser, ruT5_base_sum_gazeta, ruT5-base. Экспериментальные исследования проведены с использованием двух наборов данных - Института филологии и языковой коммуникации и из открытого репозитория Github. Для оценки моделей использован набор метрик: BLEU, индекс удобочитаемости Флеша, автоматический индекс удобочитаемости и разница длин предложений. С помощью тестового набора данных из перечисленных метрик извлекались статиcтические показатели, на основе которых сравнивались алгоритмы с различными параметрами обучения. Было проведено несколько экспериментов с указанными моделями, в которых использовались разные значения параметра скорости обучения для каждого набора данных, размеры батча, а также исключение из обучения дополнительного набора данных. Несмотря на различные показатели метрик при ручном сравнении выходы моделей слабо отличались друг от друга. Результаты экспериментальных исследований показали необходимость увеличения набора данных для обучения моделей, а также изменения параметров обучения моделей или использования других алгоритмов. Данное исследование является первым шагом к созданию системы поддержки принятия решений для автоматического упрощения текста и требует дальнейшего развития.

Сохранить в закладках

Все права на тексты и товарные знаки принадлежат их законным владельцам. Подробнее...

Сайт https://scinetwork.ru (далее – сайт) работает по принципу агрегатора – собирает и структурирует информацию из публичных источников в сети Интернет, то есть передает полнотекстовую информацию о товарных знаках в том виде, в котором она содержится в открытом доступе.

Сайт и администрация сайта не используют отображаемые на сайте товарные знаки в коммерческих и рекламных целях, не декларируют своего участия в процессе их государственной регистрации, не заявляют о своих исключительных правах на товарные знаки, а также не гарантируют точность, полноту и достоверность информации.

Все права на товарные знаки принадлежат их законным владельцам!

Сайт носит исключительно информационный характер, и предоставляемые им сведения являются открытыми публичными данными.

Администрация сайта не несет ответственность за какие бы то ни было убытки, возникающие в результате доступа и использования сайта.

Спасибо, понятно.

Наведите камеру на QR-код, чтобы открыть моб. версию журнала.

Главный редактор

Савин Геннадий Иванович