Статья посвящена проблеме отбора наиболее информативных регрессоров в линейной регрессии, оцениваемой с помощью метода наименьших квадратов. Ранее эта задача была формализована в виде задачи частично-булевого линейного программирования. Целевой функцией в ней выступает значение коэффициента детерминации, а линейные ограничения позволяют контролировать такие характеристики, как абсолютные вклады переменных в общую детерминацию, критерий Стьюдента, коэффициенты вздутия дисперсии, коэффициенты интеркорреляций. Цель данной статьи состоит в расширении задачи частично-булевого программирования линейными ограничениями, позволяющими контролировать в процессе построения по данным временных рядов степень автокорреляции остатков регрессии. Показано, что для обнаружения автокорреляции первого порядка достаточно вычислить коэффициент корреляции между остатками в текущий и предыдущий момент времени. Использовать коэффициент корреляции Пирсона для интеграции в задачу в виде линейных ограничений не представляется возможным. Поэтому был использован коэффициент Фехнера, зависящий от количества совпадений и несовпадений знаков отклонений двух переменных от их средних величин. Этот коэффициент, как и коэффициент Пирсона, принимает значения от -1 до +1. Чем ближе его абсолютное значение к единице, тем сильнее коррелируют переменные. Использование коэффициента Фехнера при вычислении автокорреляции остатков первого порядка позволило интегрировать его в задачу частично-булевого линейного программирования в виде линейных ограничений. Корректность сформулированной задачи подтверждена решением конкретного примера по реальным статистическим данным. При этом была построена модель с полным отсутствием автокорреляции остатков, уравнение которой совпало с уравнением полученной ранее при других ограничениях регрессии, что снова подтверждает ее адекватность.
Идентификаторы и классификаторы
Регрессионный анализ [1], относящийся к одному из методов машинного обучения [2], сегодня находит широкое применение при решении конкретных прикладных задач обработки данных. Построение регрессионной модели затруднят то, что сразу не понятно, какие именно объясняющие переменные следует включать в ее уравнение. Эта проблема известна в отечественной литературе как задача отбора информативных регрессоров (ОИР) [3], а в зарубежной как «subset selection» или «feature selection». Существует два способа ее точного решения. Первый из них — метод «всех возможных регрессий» [4], который состоит в полном переборе всех возможных комбинаций входящих в модель факторов, что представляет собой довольно трудоемкую вычислительную задачу. Второй способ связан с решением специальным образом сформулированной задачи математического программирования (см., например, [5; 6]), что эффективнее, чем метод «всех регрессий».
Список литературы
- Montgomery D.C. Introduction to Linear Regression Analysis / D.C. Montgomery, E.A. Peck, G.G. Vining. - John Wiley & Sons, 2021. - 704 p.
- Alpaydin E. Introduction to Machine Learning / E. Alpaydin. - MIT Press, 2020. - 537 p.
- Стрижов В.В. Методы выбора регрессионных моделей / В.В. Стрижов. - Москва : Вычислительный Центр им. А.А. Дородницына Российской академии наук, 2010. - 60 с.
- Айвазян С.А. Прикладная статистика и основы эконометрики / С.А. Айвазян, В.С. Мхитарян. - Москва : ЮНИТИ, 1998. - 1022 с.
- Chung S. A Mathematical Programming Approach for Integrated Multiple Linear Regression Subset Selection and Validation / S. Chung, Y.W. Park, T. Cheong // Pattern Recognition. - 2020. - Vol. 108. - P. 107565.
- Bertsimas D. Scalable Holistic Linear Regression / D. Bertsimas, M.L. Li. - DOI 10.1016/j.orl.2020.02.008 // Operations Research Letters. - 2020. - Vol. 48, no. 3. - P. 203- 208.
- Базилевский М.П. Отбор информативных регрессоров с учётом мультиколлинеарности между ними в регрессионных моделях как задача частично-булевого линейного программирования / М.П. Базилевский // Моделирование, оптимизация и информационные технологии. - 2018. - Т. 6, № 2 (21). - С. 104-118.
- Базилевский М.П. Построение вполне интерпретируемых линейных регрессионных моделей с помощью метода последовательного повышения абсолютных вкладов переменных в общую детерминацию / М.П. Базилевский. - DOI 10.17308/sait/1995-5499/2022/2/5-16. - EDN CNDSSW // Вестник Воронежского государственного университета. Серия: Системный анализ и информационные технологии. - 2022. - № 2. - С. 5-16.
- Базилевский М.П. Формализация процесса отбора информативных регрессоров в линейной регрессии в виде задачи частично-булевого линейного программирования с ограничениями на коэффициенты интеркорреляций / М.П. Базилевский. - DOI 10.17513/snt.39723. - EDN FCOPEL // Современные наукоемкие технологии. - 2023. - № 8. - С. 10-14.
- Базилевский М.П. Формализация процесса отбора информативных регрессоров в линейной регрессии в виде задачи частично-булевого линейного программирования с ограничениями на коэффициенты интеркорреляций / М.П. Базилевский. - DOI 10.17513/snt.39723. - EDN FCOPEL // Современные наукоемкие технологии. - 2023. - № 8. - С. 10-14.
- Гефан Г.Д. Эконометрика / Г.Д. Гефан. - EDN VAABCZ. - Иркутск : Иркутский государственный университет путей сообщения, 2005. - 84 с.
- Кремер Н.Ш. Теория вероятностей и математическая статистика / Н.Ш. Кремер. - Москва : Юнити-Дана, 2004. - 573 с.
- Фёрстер Э. Методы корреляционного и регрессионного анализа / Э. Фёрстер, Б. Рёнц. - Москва : Финансы и статистика, 1983. - 303 с.
- Демаков В.И. Модификация метода Фехнера для повышения устойчивости анализа данных / В.И. Демаков, А.В. Демаков. - DOI 10.18101/2304-5728-2022-1-35-44. - EDN IGQBCH // Вестник Бурятского государственного университета. Математика, информатика. - 2022. - № 1. - С. 35-44.
- Саадалов Т. Методика расчета коэффициента корреляции Фехнера и Пирсона, и их области применения / Т. Саадалов, Р. Мырзаибраимов, Ж.Д. Абдуллаева. - DOI 10.33619/2414-2948/71/31. - EDN GNMYZT // Бюллетень науки и практики. - 2021. - Т. 7, № 10. - С. 270-276.
- Базилевский М.П. Оценивание модульных линейных регрессионных моделей с помощью метода наименьших модулей / М.П. Базилевский, А.Б. Ойдопова. - DOI 10.15593/2224-9397/2023.1.06. - EDN MEKQHE // Вестник Пермского национального исследовательского политехнического университета. Электротехника, информационные технологии, системы управления. - 2023. - № 45. - С. 130-146.
Выпуск
Другие статьи выпуска
В данной статье было проведено исследование влияния параметра k, размера обучающей выборки и ряда популярных метрик расстояний для метода k-ближайших соседей (kNN - k-nearest neighbors) на качество моделей с использованием метрик RMSE и R2. Алгоритм K-ближайших соседей является одним из самых популярных среди ML-моделей для решения задач классификации и регрессии. Тщательная настройка параметров - фундаментальный аспект для достижения баланса между точностью и эффективностью модели. Важность правильного выбора параметров k и метрики расстояния является ключевым фактором для создания модели с высокой точностью. В результате исследования были получены оптимальные значения параметра k алгоритма, которые применимы для решения большинства прикладных задач. Наиболее часто используемые метрики, такие как Евклидова и Манхэттенская, показали сопоставимую эффективность по сравнению с метриками Чебышева и Махаланобиса. Практическая применимость оптимальных характеристик алгоритма делает его решения востребованными в разнообразных прикладных задачах классификации и регрессии.
Лопатки ротора обычно работают в непосредственной близости от лопаток статора, расположенных на одинаковом расстоянии друг от друга, при этом следы от лопаток практически не рассеиваются. Рабочие лопатки проходят по следу каждой лопатки статора и получают серию равномерно распределенных импульсов. Изменение синхронизации импульсов по отношению друг к другу происходит так, что воздействие одних импульсов отменяет влияние других и приводит к снижению уровня возбуждения. Одним из способов изменения синхронизации импульсов от статора является использование модифицированного расстояния между лопатками статора. При этом положения некоторых или всех лопаток смещаются по окружности относительно друг друга и получается фазовое отклонение импульсов от лопаток статора. В данной работе представлена теоретическая методика исследования использования модифицированного расстояния между лопатками для уменьшения уровня возбуждения на рабочие лопатки, возникающего от следа лопаток статора турбин. Приведены результаты численного расчета долговечности для тестового случая академического рабочего колеса.
Одним из распространенных видов аварий в сетях среднего напряжения, в которых нейтраль питающего трансформатора изолирована, является двойное замыкание на землю (ДЗЗ). В этом режиме ток в поврежденных фазах увеличивается, а напряжение в исправном проводе относительно грунта достигает линейного значения. В отличии от двухфазного короткого замыкания (КЗ) величина тока ДЗЗ не всегда приводит к срабатыванию релейной защиты. Поэтому становится актуальной задача разработки методов и средств для идентификации ДЗЗ и поиска мест их возникновения. В современных условиях ее решение должно осуществляться на основе компьютерных технологий, что требует разработки адекватных моделей для определения режимов ДЗЗ. Анализ отечественных и зарубежных публикаций показывает, что многие важные аспекты ДЗЗ детально рассмотрены. Однако процессы ДЗЗ в технологических ЛЭП железнодорожного транспорта, находящихся в зонах повышенного электромагнитного влияния тяговых сетей, остаются не изученными. Эффективный подход к решению этой задачи может быть основан на применении методов моделирования режимов электрических систем, разработанных в ИрГУПСе. Использование такого подхода позволяет получать точные и достоверные данные при расчете ДЗЗ в системах электроснабжения железных дорог. В статье представлены результаты исследований, направленных на создание моделей для определения режимов ДЗЗ в линиях 6 и 10 кВ, питающих стационарные объекты железных дорог и подверженных электромагнитному воздействию тяговой сети.
Проведено моделирования работ, выполняемых сотрудниками службы информационной безопасности организации, обслуживающих корпоративную информационную систему. Нарушители при реализации угроз используют уязвимости объекта защиты, а это приводит к появлению событий и инцидентов информационной безопасности, которые необходимо устранять. Предложено программно-математическое обеспечение для моделирования этих работ, основанное на бюджетном фонде, состояние которого описывается случайной функцией специального вида. Для вычисления ее значений предложено использовать дискретно-имитационное моделирование. В качестве показателя эффективности предлагается вероятность «обнуления» бюджетного фонда, когда в нем отсутствуют финансовые средства. При имитационном моделировании этот показатель заменяется точечной и интервальной оценками. Проведена апробация созданного программно-математического обеспечения для пяти видов работ, связанных с инцидентами информационной безопасности. Получены практические рекомендации.
Излагается математическая модель выделения из помесячных или поквартальных данных динамики цен на сельскохозяйственную продукцию трех составляющих. Одна из них тренд - общая тенденция изменения цены. Вторая - сезонные колебания, повторяющиеся с периодом, равным году, отклонения фактической цены от тренда. В модели предусмотрена возможность изменения с течением времени формы и амплитуды сезонных отклонений. Третья составляющая - остаточный член, который иногда интерпретируют как случайные отклонения. Оценка параметров, задающих конкретное выражение тренда и сезонных колебаний, осуществляется в модели путем минимизации взвешенной суммы квадратов отклонений. Приводится пример расчета на данной модели тренда и сезонных колебаний цены одного из видов сельскохозяйственной продукции за 2019-2023 гг.
В работе представлен обзор исследований, проведенных в период с 2007 по 2014 г., по сегментации аврорального овала на изображениях. В качестве исходных данных использовались карты полного неба и изображения в ультрафиолетовом спектре. Рассматривались следующие методы: модифицированная версии алгоритма изолирующей карты контур-метка, метод рандомизированного преобразования Хафа на основе линейного метода наименьших квадратов (LLS-RHT), методы на основе нейронной сети с импульсной связью (PCNN), гистограмм k-средних, адаптивного определения порога минимальной ошибки (AMET), алгоритм кластеризации нечетких локальных информационных c-средних (FLICM), метод установки уровней с инициализацией формы и адаптацией к интенсивности.
В статье предлагается использовать скрытые марковские модели для описания курса доллара. Скрытая цепь Маркова описывает свойства исходного ряда: возрастание, убывание или совпадение соседних членов ряда. Для курса доллара выявлено зависимость свойств от дня недели, поэтому цепь состояний описывается семью стохастическими матрицами. Проверка по критерию хи-квадрат подтвердила адекватность предложенной модели смены состояний. Каждое состояние марковской цепи для курса доллара приводит положительному, отрицательному или нулевому приращению. Значимой стохастической связи членами ряда приращений не выявлено. Математическое ожидание и дисперсия ряда приращений существенно изменяются для разных моментов времени, однако, для некоторых периодов времени приращения можно считать одинаково распределенными. Для таких периодов и при условии независимости приращений ряда получены формулы для вычисления прогноза и доверительного интервала. Предложенная модель может применяться для исследования других рядов наблюдений.
Представлен новый численный метод интегрирования по двум углам диаграммы направленности излучения электрона, движущегося с ускорением. Метод использует представление двумерного интеграла в виде двойной интегральной суммы по угловым секторам, линейную аппроксимацию функции интенсивности по угловым точкам элементарного сектора, взятие интеграла от аппроксимации в аналитическом виде. С использованием нового метода решена задача релятивистской электродинамики, связанная с вычислением мощности излучения электрона, движущегося по сложной траектории в окрестности фокуса фемтосекундного лазерного импульса.
Рассматриваются вопросы, связанные с разработкой рекомендательных систем в сфере предоставления образовательных услуг на высокотехнологичных цифровых платформах. Актуальность данной проблемы связана с тем, что рекомендательные системы, а также методы и подходы к их созданию, постоянно развиваются, так как должны приспосабли-ваться к меняющимся требованиям рынка образовательных услуг и предпочтениям пользователей. В последнее время стали активно применяться рекомендательные системы на основе нейросетей, в статье анализируется целесообразность использования таких систем в сфере предоставления образовательных услуг. На основе анализа существующих методов и подходов к разработке рекомендательных систем, предлагается классифици-ровать рекомендательные системы по таким параметрам как: тип используемых данных; способ обучения; область применения; сложность модели; степень взаимодействия с пользователем; метод рекомендации; пространство рекомендаций; объем рекомендаций. Рассматриваются проблемы, возникающие в процессе разработки и применения рекомендательных систем, предлагается проблемы рекомендательных систем объединить в следующие категории: проблема моделей; проблема ограниченности данных (холодного старта); проблема пузыря фильтрации; проблема выбора метрик для оценки качества системы; проблемы инфраструктуры и эффективности системы; проблемы безопасности; этические проблемы. На основе анализа и систематизации проблем использования, предлагаются подходы к их решению, даются рекомендации по архитектуре построения рекомендательных систем, применяемых в сфере образования.
Издательство
- Издательство
- БГУ
- Регион
- Россия, Иркутск
- Почтовый адрес
- 664025, Иркутская обл, г Иркутск, Кировский р-н, ул Ленина, д 11
- Юр. адрес
- 664025, Иркутская обл, г Иркутск, Кировский р-н, ул Ленина, д 11
- ФИО
- Игнатенко Виктор Васильевич (Ректор)
- E-mail адрес
- info@bgu.ru
- Контактный телефон
- +7 (395) 2522677
- Сайт
- https:/bgu.ru