ISSN 2074-1707
Языки: ru · en

Статья: РУССКО-АНГЛИЙСКИЙ ПАРАЛЛЕЛЬНЫЙ КОРПУС ДЛЯ АВТОМАТИЧЕСКОГО ПЕРЕВОДА ТЕКСТА ПАТЕНТОВ (2024)

Читать онлайн

В настоящее время использование связки – (а) программные средства глубокого обучения и (б) параллельный двуязычный выравненный корпус текстов – позволяет создать переводчик для определенной предметной области. С помощью семейства патентов Patent Family (изобретения, профессионально переведенные на различные языки: русский, английский и т. п. и зарегистрированные в патентных базах различных стран), полученного посредством парсинга Google Patents, возможно создать параллельный корпус текстов для обучения лингвистической модели. В ходе работы получен новый метод, обеспечивающий формирование русско-английского параллельного корпуса для автоматического перевода текста патентов. Разработаны алгоритмы: парсинга патентов с Google Patents; формирования параллельного корпуса; обучения лингвистической модели перевода текстов патентов с использованием модели seq2seq. Разработанные алгоритмы реализованы в виде программного модуля на языке Python с использованием PyTorch, NLTK, spaCy, MySQL, ClickHouse. Программный модуль апробирован на патентах с сайта Google Patents. Для вычисления точности перевода были рассчитаны коэффициент BLEU и коэффициент полноты.

Ключевые фразы: автоматические переводчики, технические тексты, глубокое машинное обучение, патенты, парсинг
Автор (ы): Коробкин Дмитрий Михайлович, Рязанова Мария Андреевна, Фоменков Сергей Алексеевич, Бобунов Артем Владимирович
Журнал: ПРИКАСПИЙСКИЙ ЖУРНАЛ: УПРАВЛЕНИЕ И ВЫСОКИЕ ТЕХНОЛОГИИ

Идентификаторы и классификаторы

УДК
004.82. Представление знаний
Для цитирования:
КОРОБКИН Д. М., РЯЗАНОВА М. А., ФОМЕНКОВ С. А., БОБУНОВ А. В. РУССКО-АНГЛИЙСКИЙ ПАРАЛЛЕЛЬНЫЙ КОРПУС ДЛЯ АВТОМАТИЧЕСКОГО ПЕРЕВОДА ТЕКСТА ПАТЕНТОВ // ПРИКАСПИЙСКИЙ ЖУРНАЛ: УПРАВЛЕНИЕ И ВЫСОКИЕ ТЕХНОЛОГИИ. 2024. № 1 (65)
Текстовый фрагмент статьи