ПОРІВНЯЛЬНИЙ АНАЛІЗ МОДЕЛЕЙ МАШИННОГО НАВЧАННЯ І РЕГРЕСІЙ ДЛЯ ПРОГНОЗУВАННЯ ЦІНИ ЛЕГКОВОГО АВТО
Анотація
Метою дослідження, описаного у цій статті, є порівняльний аналіз прогнозних якостей деяких моделей машинного навчання та регресій, в яких факторами виступають споживчі характеристики вживаного легкового автомобіля: марка автомобіля, тип коробки передач, тип приводу, тип двигуна, пробіг, тип кузову, рік випуску, область продавця, стан авто, чи було авто у ДТП, середня ціна на аналог в Україні, об’єм двигуна, кількість дверей, наявність додаткового обладнання, кількість місць для пасажирів, чи перша реєстрація авто, чи пригнане авто із закордону. Якісні змінні були закодовані як бінарні змінні або за допомогою середнього значення цільової змінної. Для моделювання було використано понад 200 тисяч автомобілів. Оцінка параметрів усіх моделей проводилася у середовищі Python із використанням бібліотек Sklearn, Catboost, StatModels та Keras. У ході дослідження були розглянуті такі моделі регресій та моделі машинного навчання: лінійна регресія; поліноміальна регресія; дерево рішень; нейронна мережа; моделі за алгоритмами «k-найближчих сусідів», «випадковий ліс», «градієнтний бустинг»; ансамбль моделей. У статті представлені найкращі з точки зору якості (згідно критеріїв R2, MAE, MAD, MAPE) варіанти із кожного класу моделей. Було виявлено, що найкраще із задачею прогнозування ціни на легковий автомобіль справляються саме нелінійні моделі. Результати моделювання свідчать про те, що найкраще відображає залежність між ціною легкового автомобіля та його характеристиками саме ансамбль моделей, до якого увійшли нейронна мережа, моделі за алгоритмами «випадковий ліс» та «градієнтний бустинг». Ансамбль моделей показав середню відносну похибку апроксимації вихідних даних 11,2%, та середню відносну похибку прогнозу 14,34%. Усі запропоновані нелінійні моделі ціни на авто мають приблизно однакові прогнозні якості (різниця між MAPE у межах 2%).
Завантаження
Посилання
Osokina, O. (2015). Econometric modeling of the cost of the car Renault Duster in the secondary market. Moscow: VII International Student Scientific Conference "Student Scientific Forum". p.8. (in Russian)
Zhurkina, E. (2015). Econometric modeling of the cost of the car Ford Fiesta in the secondary market, the example calculations. Moscow: VII International Student Scientific Conference "Student Scientific Forum". p.6. (in Russian)
Mrochko, A., Batojargalov, B. (2015). Econometric analysis of the market for used cars (BMW, Mercedes, Audi). Moscow: International student scientific newsletter, 6, 28. (in Russian)
Valeeva, Z., Isavnin, A. (2016). Econometric modeling of price car in the secondary market in the city of Naberezhnye Chelny. Moscow: Fundamental research, 6, 154-158. (in Russian)
Utakaeva, I.H. (2019). Experience of econometric modeling using the statistical analysis package Python. Bulletin of the Altai Academy of Economics and Law, 2, 346-351. (in Russian)
Gegic, E., Isakovic, B., Keco, D., Masetic, Z. & Kevric, J. (2019). Car Price Prediction using Machine Learning Techniques. Saraevo: TEM Journal, 1 (8), 113-118.
Kanwal, N., Sadaqat, J. (2017). Vehicle Price Prediction System using Machine Learning Techniques. New York: International Journal of Computer Applications, 167, 27-31.
Ozcalici, M. (2017). Predicting Second-Hand Car Sales Price Using Decision Trees and Genetic Algorithms. Istanbul: Alphanumeric Journal, №5, 103-114.
Autoria. Retrieved from https://auto.ria.com.
Statmodels. Retrieved from https://www.statsmodels.org/.
Sklearn. Retrieved from https://scikit-learn.org/.
Catboost. Retrieved from https://catboost.ai/.
Keras. Retrieved from https://keras.io/.
How to Build, Develop and Deploy a Machine Learning Model to predict cars price using Neural Networks (2019). Medium. Retrieved from https://medium.com/thelaunchpad/how-to-build-develop-and-deploy-a-machine-learning-model-to-predict-cars-price-using-neural-7f7439a37300.