Побудова нелінійних регресійних рівнянь на основі багатовимірних нормалізуючих перетворень
Анотація
В статі розглядаються методи побудови рівнянь, довірчих інтервалів та інтервалів передбачення нелінійних регресій на основі багатовимірних нормалізуючих перетворень для негаусовських даних. У якості прикладу побудовано нелінійне регресійне рівняння для оцінювання розміру програмного забезпечення інформаційних систем з відкритим кодом на PHP із застосуванням багатовимірного нормалізуючого перетворення Джонсона для сімейства SB. Це рівняння отримано за вибіркою чотиривимірних негаусовських даних: фактичний розмір програмного забезпечення у тисячах рядків коду, загальна кількість класів, загальна кількість зв'язків та середня кількість атрибутів на клас у концептуальній моделі даних з 32 інформаційних систем, розроблених з використанням мови програмування PHP. Попередньо зазначені дані були перевірені на наявність викидів із використанням квадрату відстані Махаланобиса (Mahalanobis): для рівня значимості, що дорівнює 0,005, викиди відсутні. Гіпотезу про багатовимірну нормальність було перевірено за критерієм квадрату відстані Махаланобиса. Побудоване нелінійне рівняння у порівнянні з іншими регресійними рівняннями (як лінійними, так і нелінійними, які отримані за допомогою одновимірних нормалізуючих перетворень Джонсона та десяткового логарифму) має більший множинний коефіцієнт детермінації і менше значення середньої величини відносної похибки. Продемонстровано, що погана нормалізація багатовимірних негаусовських даних за допомогою одновимірних перетворень або її відсутність призводить до збільшення ширини довірчих інтервалів та інтервалів передбачення як нелінійної так і лінійної регресії для більшої кількості рядків даних у порівнянні з багатовимірним нормалізуючим перетворенням.
Завантаження
Посилання
2. G. A. F. Seber, and C. J. Wild, Nonlinear Regression. New York: John Wiley & Sons, 1989. DOI: 10.1002/0471725315
3. T. P. Ryan, Modern regression methods. New York: John Wiley & Sons, 1997. DOI: 10.1002/9780470382806
4. R. A. Johnson, and D. W. Wichern, Applied Multivariate Statistical Analysis. Pearson Prentice Hall, 2007.
5. S. B. Prykhodko, “Developing the software defect prediction models using regression analysis based on normalizing transformations” in “Modern problems in testing of the applied software” (PTASS-2016), Abstracts of the Research and Practice Seminar, Poltava, Ukraine, May 25-26, 2016, pp. 6-7.
6. Hee Beng Kuan Tan, Yuan Zhao, and Hongyu Zhang, “Estimating LOC for information systems from their conceptual data models”, in Proceedings of the 28th international conference on Software engineering (ICSE '06), May 20-28, 2006, Shanghai, China, pp. 321-330. DOI: 10.1145/1134285.1134331
7. S. Prykhodko, N. Prykhodko, L. Makarova, and K. Pugachenko, “Detecting Outliers in Multivariate Non-Gaussian Data on the basis of Normalizing Transformations”, in Proceedings of the 2017 IEEE First Ukraine Conference on Electrical and Computer Engineering (UKRCON) «Celebrating 25 Years of IEEE Ukraine Section», May 29 – June 2, 2017, Kyiv, Ukraine, 2017, pp. 846-849. DOI: 10.1109/UKRCON.2017.8100366
8. K. V. Mardia, “Measures of multivariate skewness and kurtosis with applications”, Biometrika, 57, 1970, pp. 519-530. DOI: 10.1093/biomet/57.3.519