Оптимизационная задача построения линейных регрессий с минимальной величиной средней абсолютной ошибки на тестовых выборках (2024)

Статья посвящена проблеме отбора заданного числа наиболее информативных регрессоров в линейных регрессиях. При использовании метода наименьших квадратов точное решение этой задачи по критерию максимизации коэффициента детерминации при задействовании всей выборки данных может быть получено в результате решения особым образом сформулированной задачи частично-булевого линейного программирования. Однако в машинном обучении важным этапом при создании надежной и эффективной модели считается её построение по обучающей выборке и проверка точности её предсказания по тестовой выборке. Поэтому в статье сформулирована оптимизационная задача отбора информативных регрессоров в линейных регрессиях по критерию минимизации средней абсолютной ошибки на тестовой выборке. Формулировка основана на известном приёме, согласно которому абсолютные ошибки должны быть представлены в виде разности между двумя неотрицательными переменными. С использованием встроенных в пакет Gretl статистических данных о заработной плате спортсменов и решателя оптимизационных задач LPSolve проведены вычислительные эксперименты. Для этого обучающая выборка формировалась из 70%, 75% и 80% наблюдений. Во всех этих случаях среднее снижение значения коэффициента детерминации моделей составило 24,76%, 18,4% и 12,22%, но при этом средняя абсолютная ошибка уменьшилась на 24,8%, 26,3% и 21,05% соответственно. Эксперименты показали, что среднее время решения задач при минимизации средней абсолютной ошибки на тестовых выборках оказалось в 2,33–2,85 раза выше, чем время решения задач при максимизации коэффициента детерминации на обучающих выборках.

Издание: МОДЕЛИРОВАНИЕ И АНАЛИЗ ДАННЫХ
Выпуск: № 4, Том 14 (2024)
Автор(ы): Базилевский Михаил Павлович
Сохранить в закладках
ОЦЕНИВАНИЕ НЕИЗВЕСТНЫХ ПАРАМЕТРОВ МНОГОСЛОЙНОЙ МОДУЛЬНОЙ РЕГРЕССИИ МЕТОДОМ НАИМЕНЬШИХ МОДУЛЕЙ (2024)

Статья посвящена разработке и возможности применения в регрессионном анализе новой математической формы связи между выходной переменной и входными факторами. Для этого использованы ранее изученные более простые модели модульной линейной регрессии, в которых один или несколько входных факторов преобразуются единожды с помощью операции модуль. Предложен симбиоз линейной регрессии и модульной регрессии с мультиарной операцией модуль. На его основе сформулирована многослойная модульная регрессия, выстроенная по принципу «модуль в модуле», т. е. на каждом новом слое используется модуль от величины предыдущего слоя. Задача оценивания многослойной модульной регрессии с заданным числом слоев методом наименьших модулей сведена к задаче частично-булевого линейного программирования. С помощью предложенных регрессий решена задача моделирования запасов древесины в Иркутской области. При этом построены однослойная, двухслойная и трехслойная модульные регрессии. Новые модели по качеству оказались существенно лучше линейной регрессии, причем, с увеличением количества слоев наблюдалось снижение суммы модулей остатков. В трехслойной модели все остатки получились нулевыми. Разработанный математический аппарат может успешно применяться для решения многих задач анализа данных.

Издание: МОДЕЛИРОВАНИЕ, ОПТИМИЗАЦИЯ И ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ
Выпуск: Т. 12 № 2 (2024)
Автор(ы): Базилевский Михаил Павлович
Сохранить в закладках
Контроль автокорреляции остатков с помощью коэффициента Фехнера в задаче математического программирования для отбора информативных регрессоров в линейной регрессии (2024)

Статья посвящена проблеме отбора наиболее информативных регрессоров в линейной регрессии, оцениваемой с помощью метода наименьших квадратов. Ранее эта задача была формализована в виде задачи частично-булевого линейного программирования. Целевой функцией в ней выступает значение коэффициента детерминации, а линейные ограничения позволяют контролировать такие характеристики, как абсолютные вклады переменных в общую детерминацию, критерий Стьюдента, коэффициенты вздутия дисперсии, коэффициенты интеркорреляций. Цель данной статьи состоит в расширении задачи частично-булевого программирования линейными ограничениями, позволяющими контролировать в процессе построения по данным временных рядов степень автокорреляции остатков регрессии. Показано, что для обнаружения автокорреляции первого порядка достаточно вычислить коэффициент корреляции между остатками в текущий и предыдущий момент времени. Использовать коэффициент корреляции Пирсона для интеграции в задачу в виде линейных ограничений не представляется возможным. Поэтому был использован коэффициент Фехнера, зависящий от количества совпадений и несовпадений знаков отклонений двух переменных от их средних величин. Этот коэффициент, как и коэффициент Пирсона, принимает значения от -1 до +1. Чем ближе его абсолютное значение к единице, тем сильнее коррелируют переменные. Использование коэффициента Фехнера при вычислении автокорреляции остатков первого порядка позволило интегрировать его в задачу частично-булевого линейного программирования в виде линейных ограничений. Корректность сформулированной задачи подтверждена решением конкретного примера по реальным статистическим данным. При этом была построена модель с полным отсутствием автокорреляции остатков, уравнение которой совпало с уравнением полученной ранее при других ограничениях регрессии, что снова подтверждает ее адекватность.

Издание: SYSTEM ANALYSIS AND MATHEMATICAL MODELING
Выпуск: Т. 6, № 2 (2024)
Автор(ы): Базилевский Михаил Павлович
Сохранить в закладках