Порівняння регресійних моделей за наявності викидів у наборі різнотипових даних

Ключові слова: регресія, моделювання, викид, надійна регресія, М-оцінювання, лінійна регресія, регресія Губера

Анотація

У дослідженні зосереджено увагу на надійній статистиці, обґрунтовано вплив надійної регресії на подолання обмежень традиційного регресійного аналізу. Закцентовано на регресійному аналізі, який моделює зв'язок між однією чи кількома незалежними змінними та залежною змінною. Описано стандартні типи регресії, такі як звичайний метод найменших квадратів, що мають сприятливі властивості. Наведено приклади оцінювання за методом найменших квадратів для регресійних моделей. Проаналізовано критерії моделей, які чутливі до викидів. Розглянуто викиди із подвійною величиною помилки, аніж типове спостереження, та з більшою величиною, що впливає на квадратичну втрату помилки, і тому має більше важелів впливу на оцінки регресії. Розглянуто аналіз лінійних моделей за оцінками параметрів за методом найменших квадратів завжди виявлялися найкращими лінійними незміщеними оцінками. Наведено порівняння властивостей цих методів, що здійснюється за допомогою моделювання. Обґрунтовано критерії порівняння їх ефективності. Досліджено критерії для M-estimators, які можуть бути вразливими до спостережень із високим важелем. Робота зосереджена на даних, які містять викиди. Досліджено їх вплив на оцінки методом найменших квадратів. Обґрунтовано застосування функції втрат Хубера, яка є надійною альтернативою стандартним квадратичним втратам помилок, та зменшує кількість викидів у квадратичні втрати помилок. Розглядається випадки втрати помилок, які обмежують їхній вплив на оцінки регресії. Досліджено алгоритм Random Sample Consensus (RANSAC) для надійної підгонки моделей. Показано його надійність у процесі аналізу викидів у експериментальних даних. Проаналізовано критерії, за яких алгоритм здатний інтерпретувати та згладжувати дані, які містять значний відсоток грубих помилок. Обґрунтовано процес генерування статистики, який покладається на звичайний метод найменших квадратів (МНК) у моделі лінійної регресії завдяки його оптимальним властивостям і простоті обчислень. Обґрунтовано МНК, який дає незміщену та мінімальну дисперсію серед усіх незміщених лінійних оцінок, коли помилки є незалежними, однаково та нормально розподіленими із середнім значенням 0 та постійною дисперсією 2σ. Показано однорідності дисперсій помилок (гомоскедастичність), що є важливим припущенням у лінійній регресії, для якої оцінки методом найменших квадратів мають властивість мінімальної дисперсії. Проведено порівняльний аналіз таких регресійних моделей: лінійна регресія (англ. Linear Regression, not Robust); регресія Губера (англ. Huber Regression); RANSA (англ. RANdom SAmple Consensus); оцінююча функція Тейла-Сена (англ. Theil-Sen Regression). У роботі проведено дослідження на вибірках із різними показниками викидів для чотирьох моделей регресій, зокрема першої не надійної (LR). Оцінено точність отриманих моделей для даних із викидами та без. Наведено дослідження, які демонструють важливість аналізу викидів у наборі даних та вибору правильного методу регресії. Розглянуто різні алгоритми, що по-різному пріоритезують важливість елементів вибірки та дають результати різної точності залежно від кількості викидів та однорідності даних.

Біографії авторів

Н. І. Бойко, Національний університет "Львівська політехніка", м. Львів

канд. екон. наук, доцент, кафедра систем штучного інтелекту

К. П. Газдюк, Чернівецький національний університет ім. Юрія Федьковича, м. Чернівці

д-р філософії за спеціальністю 121 (інженерія програмного забезпечення), асистент, кафедра програмного забезпечення комп'ютерних систем

Посилання

Abeida, H. (2021). Singular Non-circular Complex Elliptically Symmetric Distributions: New Results and Applications. Mathematics and Statistics, 9(6), 1019–1033. https://doi.org/10.13189/ms.2021.090618

Ahmed, M. G., & Maha, E. Q. (2016). Regression Estimation in the Presence of Outliers: A Comparative Study. International Journal of Probability and Statistics, 5(3), 65–72. https://doi.org/10.5923/j.ijps.20160503.01

Besson, O., Abramovich, Y., & Johnson, B. (2016). Direction of arrival estimation in a mixture of K-distributed and Gaussian noise. Signal Process, 128, 512–520. https://doi.org/10.1016/j.sigpro.2016.05.027

Greco, M., & Gini, F. (2013). Cramer-Rao lower bounds on covariance matrix estimation for complex elliptically symmetric distributions. Trans. Signal Process, 21, 6401–6409. https://doi.org/10.1109/TSP.2013.2286114

Hippert-Ferrer, A., El Korso, M. N., & Breloy, A. (2021). Guillaume Ginolhac. Robust Mean and Covariance Matrix Estimation Under Heterogeneous Mixed-Effects Model. HAL Open science. HAL Id: version 1. URL: https://hal.science/hal-03156771

Ollier, V., El Korso, M. N., Boyer, R., Larzabal, P., & Pesavento, M. (2017). Robust calibration of radio interferometers in non-gaussian environment. Trans. Signal Process, 65, 5649–5660. https://doi.org/10.1109/TSP.2017.2733496

Ollila, E., & Koivunen, V. (2009). Influence function and asymptotic efficiency of scatter matrix based array processors: Case MVDR beamformer. Transactions on Signal Processing, 57(1), 247–259. https://doi.org/10.1109/TSP.2008.2007347

Ollila, E., Tyler, D., Koivunen, V., & Poor, H. (2012). Complex elliptically symmetric distributions: Survey, new results and applications. Transactions on Signal Processing, 60(11), 5597–5625. https://doi.org/10.1109/TSP.2012.2212433

Serenko, A. (2011). Student satisfaction with Canadian music programmes: the app.lication of the American Customer Satisfaction Model in higher education. Assessment & Evaluation in Higher Education, 36(3), 281–299. https://doi.org/10.1080/02602930903337612

Temizer, L., & Turkyilmaz, A. (2012). Implementation of Student Satisfaction Index Model in Higher Education Institutions. Procedia – Social and Behavioral Sciences, 46, 3802–3806. https://doi.org/10.1016/J.SBSPRO.2012.06.150

Tenenhaus, A., & Tenenhaus, M. (2011). Regularized Generalized Canonical Correlation Analysis. Psychome-trika, 76(2), 257–284. https://doi.org/10.1007/s11336-011-9206-8

Tenenhaus, A., & Tenenhaus, M. (2014). Regularized generalized canonical correlation analysis for multiblock or multigroup data analysis. European Journal of Operational Research, 238(2), 391–403. https://doi.org/10.1016/j.ejor.2014.01.008

Tenenhaus, M., Hanafi, M. (2010). A bridge between PLS path modeling and multi-block data analysis. Handbook of Partial Least Squares, 99–123. https://doi.org/10.1007/978-3-540-32827-8_5

Wijnholds, S., Van Der Tol, S., Nijboer, R., & Van der Veen, A. (2009). Calibration challenges for future radio telescopes. Signal Processing Magazine, 1, 30–42.

Опубліковано
2023-04-25
Як цитувати
Бойко, Н. І., & Газдюк, К. П. (2023). Порівняння регресійних моделей за наявності викидів у наборі різнотипових даних. Науковий вісник НЛТУ України, 33(2), 84-91. https://doi.org/10.36930/40330212
Розділ
Інформаційні технології