Архив статей журнала
Статья посвящена проблеме отбора заданного числа наиболее информативных регрессоров в линейных регрессиях. При использовании метода наименьших квадратов точное решение этой задачи по критерию максимизации коэффициента детерминации при задействовании всей выборки данных может быть получено в результате решения особым образом сформулированной задачи частично-булевого линейного программирования. Однако в машинном обучении важным этапом при создании надежной и эффективной модели считается её построение по обучающей выборке и проверка точности её предсказания по тестовой выборке. Поэтому в статье сформулирована оптимизационная задача отбора информативных регрессоров в линейных регрессиях по критерию минимизации средней абсолютной ошибки на тестовой выборке. Формулировка основана на известном приёме, согласно которому абсолютные ошибки должны быть представлены в виде разности между двумя неотрицательными переменными. С использованием встроенных в пакет Gretl статистических данных о заработной плате спортсменов и решателя оптимизационных задач LPSolve проведены вычислительные эксперименты. Для этого обучающая выборка формировалась из 70%, 75% и 80% наблюдений. Во всех этих случаях среднее снижение значения коэффициента детерминации моделей составило 24,76%, 18,4% и 12,22%, но при этом средняя абсолютная ошибка уменьшилась на 24,8%, 26,3% и 21,05% соответственно. Эксперименты показали, что среднее время решения задач при минимизации средней абсолютной ошибки на тестовых выборках оказалось в 2,33–2,85 раза выше, чем время решения задач при максимизации коэффициента детерминации на обучающих выборках.