В данной статье рассматривается способ решения задачи матчинга в сфере обработки естественного языка при помощи ранжирующих моделей. В ходе проведения исследования был подготовлен размеченный набор данных, на основе которого обучена модель машинного обучения для решения задачи ранжирования; реализована персональная метрика оценки качества работы обученной модели. Качественное решение задачи матчинга средствами машинного обучения позволит минимизровать или исключить работу человека в процессе сопоставления объектов, схожих по своему смыслу, но различных по своему текстовому или признаковому описанию.
Идентификаторы и классификаторы
Задача матчинга в области обработки естественного языка заключается в определении степени семантического сходства между двумя текстовыми фрагментами или запросами. Основная цель задачи матчинга состоит в том, чтобы определить, насколько два текста или запроса имеют схожий смысл или связь друг с другом. Для решения такой задачи можно использовать ранжирующие модели машинного обучения. Определение 2. Ранжирование (обучение ранжированию) – это класс задач машинного обучения с учителем, заключающихся в автоматическом подборе ранжирующей модели по обучающей выборке, состоящей из множества списков и заданных частичных порядков на элементах внутри каждого списка [2]. Частичный порядок обычно задаётся путём указания оценки для каждого элемента (например, «релевантен» или «не релевантен»). Цель ранжирующей модели – наилучшим образом приблизить и обобщить способ ранжирования в обучающей выборке на новые данные. Рассмотрим постановку задачи ранжирования [3, 4].
Список литературы
-
Направления Симулятора ML: Матчинг. URL: https://telegra.ph/Napravleniya-Simulyatora- ML-Matching-08-11 (дата обращения: 23.04.2024).
-
Liu T.-Y. Learning to Rank for Information Retrieval. Hanover: Publishers Inc., 2009. 331 p.
-
Воронцов К. В. Методы обучения ранжированию (Learning to Rank). URL: http://www.machinelearning.ru/wiki/images/8/89/Voron-ML-Ranking-slides.pdf (дата обращения: 25.04.2024).
-
Саськов Л. К., Щитинин Д. А. Применение методов машинного обучения для ранжирования поисковой выдачи контента // Современные технологии в теории и практике программирования: сб. материалов науч.-практ. конф. студентов, аспирантов и молодых ученых (Санкт-Петербург, 26-27 апр. 2023 г.) / С.-Петерб. политехн. ун-т Петра Великого. СПб.: ПОЛИТЕХ-ПРЕСС, 2023. С. 165-166. EDN: FJYRTQ
-
Kocherovskiy A. Русский LLM-помощник (saiga) с кэшем, используя RAG (Retrieval- Augmented Generation). URL: https://habr.com/ru/articles/769124/(дата обращения: 26.04.2024).
-
Набор данных. URL: https://docs.google.com/spreadsheets/d/1IdazyAGs4RuoZMFbhVZ5w1kTk8VueoIPmtYRR2kTc T8/edit?usp=sharing (дата обращения: 26.04.2024).
-
Дале Д. Рейтинг русскоязычных энкодеров предложений. URL: https://habr.com/ru/articles/669674/(дата обращения: 28.04.2024).
-
Rubert-tiny2 // HuggingFace. URL: https://huggingface.co/cointegrated/rubert-tiny2 (date accessed: 28.04.2024).
-
CatBoost. URL: https://catboost.ai/en/docs/(date accessed: 29.04.2024).
-
Ranking: objectives and metrics. Pairwise metrics. URL: https://catboost.ai/en/docs/concepts/loss-functions-ranking (date accessed: 29.04.2024).
Выпуск
Другие статьи выпуска
В работе рассмотрено решение задачи планирования «последней мили» на примере омского предприятия, занимающегося поставкой продовольственных товаров на собственные точки сбыта. В ходе решения задачи были выделены кластеры для определения зон доставки, построены оптимальные маршруты развозки продукции для каждого из них и построена имитационная модель. С помощью модели получена оптимальная последовательность обслуживания кластеров. Вычислительный эксперимент показал, что такой подход к решению задачи является перспективным.
В статье исследуется применение нейронных сетей для решения вариационных неравенств. Проведены эксперименты, в рамках которых разработаны архитектуры нейронных сетей разной сложности. Эти архитектуры успешно решают широкий спектр задач, включая системы уравнений и неравенств, а также вариационные неравенства. Более быстрые и точные методы решения вариационных неравенств могут существенно повысить эффективность вычислительных процессов и оптимизацию систем. Результаты экспериментов свидетельствуют о перспективности использования нейронных сетей в этой области и могут послужить основой для дальнейших исследований и разработок.
В данной статье рассматривается проблема оптимизации процесса обучения искусственных нейронных сетей с использованием генетических алгоритмов. Искусственные нейронные сети представляют собой одну из важнейших технологий в современном мире, однако их обучение требует значительных ресурсов. Для решения проблем, с которыми сталкиваются методы градиентного спуска, применяются генетические алгоритмы. В статье представлены две модификации генетических алгоритмов, направленные на улучшение сходимости моделей искусственной нейронной сети с помощью изменения функции приспособленности. Проведён сравнительный анализ эффективности алгоритмов в контексте обучения искусственной нейронной сети, который позволил оценить эффективность модификаций функции приспособленности и их влияние на процесс обучения искусственных нейронных сетей.
В статье рассмотрены существующие на данный момент технологические приспособления, представлен обзор мобильного приложения для контроля и обеспечения компенсации сахарного диабета, представлен обзор методов, применяемых в современной диабетологии, облегчающих контроль уровня глюкозы в крови и помогающих более точно и, соответственно, более эффективно подобрать терапию. Так, инновационные технологии открывают новые возможности диагностики и лечения диабета и расширяют границы медицинской помощи. Эта проблема актуальна ввиду большого количества больных и сложности процесса мониторинга для последующей корректировки уровня глюкозы в крови.
Данная статья нацелена на определение наиболее эффективной модели машинного обучения для кластеризации данных вибродиагностики. Исследование включает анализ различных моделей и методов, таких как k-means, Agglomerative Clustering, TimeSeriesKMeans и CatBoost. Цель состоит в выборе метода, способного наилучшим образом выявить структуру данных и улучшить понимание особенностей вибрационных сигналов. Результаты исследования могут быть полезны для разработки эффективных систем мониторинга и диагностики оборудования, а также для повышения надежности и производительности технических систем.
В статье рассмотрены результаты работы по реализации приложения для автоматизированной генерации титульных листов отчетной документации. Для создания шаблона титульного листа используется система компьютерной вёрстки LaTeX. На основе реализованного шаблона скрипт, разработанный на высокоуровневом языке программирования Python, выполняет подстановку индивидуальных данных студента в шаблон титульного листа, а также выполняет генерацию PDF файла. Подобная генерация титульных листов позволяет упростить работу преподавателей и помочь студентам избежать ошибок при заполнении титульного листа.
Издательство
- Издательство
- ОмГТУ
- Регион
- Россия, Омск
- Почтовый адрес
- 644050, Российская Федерация, г. Омск, пр-т Мира, д. 11
- Юр. адрес
- 644050, Российская Федерация, г. Омск, пр-т Мира, д. 11
- ФИО
- Корчагин Павел Александрович (Ректор )
- E-mail адрес
- info@omgtu.ru
- Контактный телефон
- +7 (381) 2653407
- Сайт
- https://omgtu.ru/