ISSN 2219-3758 · EISSN 2311-9454
Языки: ru · en

Статья: Оптимизационная задача построения линейных регрессий с минимальной величиной средней абсолютной ошибки на тестовых выборках (2024)

Читать онлайн

Статья посвящена проблеме отбора заданного числа наиболее информативных регрессоров в линейных регрессиях. При использовании метода наименьших квадратов точное решение этой задачи по критерию максимизации коэффициента детерминации при задействовании всей выборки данных может быть получено в результате решения особым образом сформулированной задачи частично-булевого линейного программирования. Однако в машинном обучении важным этапом при создании надежной и эффективной модели считается её построение по обучающей выборке и проверка точности её предсказания по тестовой выборке. Поэтому в статье сформулирована оптимизационная задача отбора информативных регрессоров в линейных регрессиях по критерию минимизации средней абсолютной ошибки на тестовой выборке. Формулировка основана на известном приёме, согласно которому абсолютные ошибки должны быть представлены в виде разности между двумя неотрицательными переменными. С использованием встроенных в пакет Gretl статистических данных о заработной плате спортсменов и решателя оптимизационных задач LPSolve проведены вычислительные эксперименты. Для этого обучающая выборка формировалась из 70%, 75% и 80% наблюдений. Во всех этих случаях среднее снижение значения коэффициента детерминации моделей составило 24,76%, 18,4% и 12,22%, но при этом средняя абсолютная ошибка уменьшилась на 24,8%, 26,3% и 21,05% соответственно. Эксперименты показали, что среднее время решения задач при минимизации средней абсолютной ошибки на тестовых выборках оказалось в 2,33–2,85 раза выше, чем время решения задач при максимизации коэффициента детерминации на обучающих выборках.

Ключевые фразы: машинное обучение, РЕГРЕССИОННЫЙ АНАЛИЗ, метод наименьших квадратов, отбор информативных регрессоров, КОЭФФИЦИЕНТ, детерминации, средняя абсолютная ошибка, обучающая выборка, ТЕСТОВАЯ ВЫБОРКА, задача частично-булевого линейного программирования
Автор (ы): Базилевский Михаил Павлович
Журнал: МОДЕЛИРОВАНИЕ И АНАЛИЗ ДАННЫХ

Идентификаторы и классификаторы

УДК
519.862.6. Эконометрика (математические вопросы)
Для цитирования:
БАЗИЛЕВСКИЙ М. П. ОПТИМИЗАЦИОННАЯ ЗАДАЧА ПОСТРОЕНИЯ ЛИНЕЙНЫХ РЕГРЕССИЙ С МИНИМАЛЬНОЙ ВЕЛИЧИНОЙ СРЕДНЕЙ АБСОЛЮТНОЙ ОШИБКИ НА ТЕСТОВЫХ ВЫБОРКАХ // МОДЕЛИРОВАНИЕ И АНАЛИЗ ДАННЫХ. 2024. № 4, ТОМ 14
Текстовый фрагмент статьи