ISSN 2072-6759
Языки: ru · en

Статья: Многозадачное обучение для улучшения генерализации в задаче генерации структурированных запросов (2024)

Читать онлайн

Семантический парсинг – это задача перевода выражения на естественном языке в логическое выражение на формальном языке. Примером практического применения семантического парсинга является преобразование текста в запрос к базе знаний. Наиболее популярными задачами преобразования текста в запрос являются задачи преобразования выражения в SQL и в SPARQL. Сдвиг распределения обучающей выборки – одна из главных проблем устойчивости семантических парсеров. Наиболее частым сдвигом в семантическом парсинге является композиционный сдвиг – необходимость генерации новых композиций кода из известных элементов синтаксиса целевого языка. В этой работе исследуется возможность использования предобученных языковых моделей (PLM) вместе с многозадачным обучением. Предлагаются специально разработанные разбиения наборов данных SPARQL и SQL, исходных датасетов LC-QuAD и WikiSQL для имитации сдвига распределения и сравнения оригинального подхода обучения генерации запроса с многозадачным подходом. В работе проведен углубленный анализ разбиений данных и предсказаний модели и показаны преимущества многозадачного подхода над оригинальным для задачи семантического парсинга.

Ключевые фразы: семантический парсинг, сдвиг распределения, многозадачное обучение
Автор (ы): Сомов О. Д.
Журнал: ТРУДЫ МФТИ

Идентификаторы и классификаторы

УДК
004.852. Статистическое обучение и параметрическое обучение
Для цитирования:
СОМОВ О. Д. МНОГОЗАДАЧНОЕ ОБУЧЕНИЕ ДЛЯ УЛУЧШЕНИЯ ГЕНЕРАЛИЗАЦИИ В ЗАДАЧЕ ГЕНЕРАЦИИ СТРУКТУРИРОВАННЫХ ЗАПРОСОВ // ТРУДЫ МФТИ. 2024. ТОМ 16, № 2 (62)
Текстовый фрагмент статьи