Архив статей журнала
В статье представлены современные метрики автоматизированной оценки качества нейронного машинного перевода и рассмотрены два способа оценки результатов, которые включают в себя оценку при помощи специальных метрик автоматизированной оценки, а также оценку переводчиком-экспертом. Для проведения анализа и оценки протестированы системы нейронного машинного перевода. В качестве кандидатов в работе представлены системы Google Translate и DeepL Translate, которые применяют в работе нейросетевой подход. В качестве метрик для оценки рассмотрены: METEOR как традиционная референсная метрика, COMET как нейросетевая референсная метрика и COMET-Kiwi как нейросетевая безреференсная метрика. Необходимо указать, что на современном этапе нейросетевые метрики лучше всего соотносятся с человеческими оценками качества машинного перевода. Отмечается, что даже модели с нейросетевым подходом обучаются на данных, предоставленных человеком, т. к. на сегодняшний день невозможно избавиться от эталонов или оценок качества, выполненных экспертами. Данные метрики используют для упрощения оценки качества, они позволяют лучше исследовать машинный перевод, его особенности и предельные возможности. В рамках анализа был выбран фрагмент исходного текста, выполнен его перевод на целевые языки при помощи выбранных систем нейронного машинного перевода для получения переводов-кандидатов, а затем указан для каждого из них текст-эталон. Результаты оценки при помощи метрик дали возможность оценить, насколько близок машинный перевод к переводу, выполненному человеком, а также выяснить, на каком этапе развития находятся современные системы машинного перевода. Экспертная оценка помогла понять, насколько эффективно системы справляются с переводом.
Статья посвящена описанию диалектного компонента лексического состава городской речи (преимущественно просторечия) города Ижевска. Источниками материала для исследования послужили научные работы о городской речи Ижевска, тексты публицистического характера, а также личные наблюдения автора статьи. В работе проведено сопоставление словарного состава просторечия города Ижевска с лексикой русских говоров Удмуртии на основе современных лексикографических и корпусных источников. Проанализировано 103 слова диалектного происхождения, большинство из них отмечено в русских говорах Удмуртии, большая часть остальных слов - в говорах сопредельных регионов: Кировской области и Пермского края. Такие результаты позволяют сделать вывод о том, что несмотря на неоднородный состав жителей города Ижевска, сложившийся в результате нескольких волн заселения приезжими из других регионов, диалектной базой их речи остаются местные говоры - говоры междуречья Вятки и Камы. Отсутствие некоторых диалектных слов, отмеченных в говорах сопредельных регионов, в корпусе русских говоров Удмуртии можно объяснить неполнотой фиксаций. Отмечена общая севернорусская основа диалектной лексики, зафиксированной в Ижевске, а также то, что далеко не все анализируемые лексемы можно считать широко распространенными в речи жителей города Ижевска. Установлено, что тематически диалектная лексика относится к традиционным группам, обозначающим человека и его характерные особенности, действия и их характеристику, питание, представителей животного и растительного мира, предметы быта и т. п. Таким образом, данное исследование подтверждает глубокую связь между местной диалектной лексикой и городской речью, важность диалектов в формировании уникального языкового облика города.