Аналіз алгоритмів кластеризації для надання рекомендацій товарів
Анотація
Актуальність. У сучасному світі, насиченому широким спектром товарів та послуг, питання надання персоналізованих рекомендацій для вибору стає актуальним завданням для багатьох сфер, зокрема електронної комерції та онлайн-платформ. Рекомендаційні системи, що працюють на основі пошукових алгоритмів та алгоритмів кластеризації, мають потенціал для значного покращення користувацького досвіду, пропонуючи релевантні та персоналізовані пропозиції товарів. Одними з ключових переваг використання алгоритмів кластеризації для рекомендаційних систем є можливість прогнозувати схожість елементів в залежності від відповідності до певної характеристики, завдяки чому можливо реалізувати ефективний пошук товарів за характеристиками. Внаслідок чого з’являється можливість є сегментувати базу користувачів на окремі підгрупи, що можуть представляти різні сегменти ринку, групи за вподобаннями, цільову аудиторію певних товарів. Виявлення проблем і недоліків таких систем дозволяє вдосконалювати алгоритми, що призводить до більш точних прогнозів і та збільшення продажів компаній.
Мета. Мета даної статті полягає в аналізі ефективності використання методів кластерного аналізу в задачах формування рекомендацій.
Методи дослідження. Порівняльний аналіз, експеримент.
Результати. Проведено аналіз ефективності алгоритмів кластеризації різних типів (k -means++, Mean Shift та HDBSCAN) для надання рекомендацій товарів на основі оцінювання відповідності запиту користувача у відсотковому відношенні, використання оперативної пам’яті, та час виконання запиту. Серед розглянутих найкращі характеристики показав алгоритм k-means++.
Висновки. Проведений аналіз підтверджує ефективність використання методів кластерного аналізу в рекомендаційних системах. Виявлення проблем і недоліків таких систем дозволяє вдосконалювати алгоритми, що призводить до більш точних прогнозів і та збільшення продажів компаній.
Завантаження
Посилання
/Посилання
How Search Engine Personalization Affects Rankings. [Online]. Available: https://marketbrew.ai/how-search-engine-personalization-affects-rankings Accessed on: May 21, 2024.
Data Clustering: Intro, Methods, Applications. [Online]. Available: https://encord.com/blog/data-clustering-intro-methods-applications Accessed on: May 22, 2024.
J. Das, S. Majumder, K. Mali, “Clustering Techniques to Improve Scalability and Accuracy of Recommender Systems”, International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, vol. 29, no. 04, pp.. 621–651, 2021
k-means Advantages and Disadvantages: [Online]. Available: https://developers.google.com/machine-learning/clustering/ Accessed on: May 22, 2024.
Artley B. Unsupervised Learning: k-means Clustering. Towards Data Science: [Online]. Available: https://towardsdatascience.com/unsupervised-learning-k-means-clustering-27416b95af27 Accessed on: May 20, 2024.
D. Arthur,S. Vassilvitskii, "k-means++: the advantages of careful seeding", in Proc. of the Eighteenth annual ACM-SIAM symposium on Discrete algorithms, Philadelphia, PA, USA., 2007, pp. 1027–1035.
Christopher A. Hierarchical Clustering and Density-Based Spatial Clustering of Applications with Noise (DBSCAN): Online]. Available: https://medium.com/mlearning-ai/hierarchical-clustering-and-density-based-spatial-clustering-of-applications-with-noise-dbscan-b8d903095532 Accessed on: May 10, 2024.
J. Sander, "Density-Based Clustering", in Encyclopedia of Machine Learning,. C. Sammut, G. I. Webb, Eds. Boston, MA, USA:Springer, 2011, pp. 349-353.
Damir Demirović, "An Implementation of the Mean Shift Algorithm", Image Processing On Line, no. 9, pp. 251–268, 2019.
Scikit-learn User Guide: [Online]. Available: https://scikit-learn.org/stable/user_guide.html Accessed on: May 22, 2024.
Pandas documentation: [Online]. Available: https://pandas.pydata.org/ Accessed on: May 24, 2024.
Memory-profiler: [Online]. Available: https://pypi.org/project/memory-profiler/ Accessed on: May 24, 2024.
Euclidean distance score and similarity. Available: https://stats.stackexchange.com/questions/53068/euclidean-distance-score-and-similarity Accessed on: May 24, 2024.
Elbow Method for optimal value of k in k-means? Available: https://www.geeksforgeeks.org/elbow-method-for-optimal-value-of-k-in-kmeans/ Accessed on: May 24, 2024.
How Search Engine Personalization Affects Rankings. [Online]. Available: https://marketbrew.ai/how-search-engine-personalization-affects-rankings Accessed on: May 21, 2024.
Data Clustering: Intro, Methods, Applications. [Online]. Available: https://encord.com/blog/data-clustering-intro-methods-applications Accessed on: May 22, 2024.
J. Das, S. Majumder, K. Mali, “Clustering Techniques to Improve Scalability and Accuracy of Recommender Systems”, International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, vol. 29, no. 04, pp.. 621–651, 2021
k-means Advantages and Disadvantages: [Online]. Available: https://developers.google.com/machine-learning/clustering/ Accessed on: May 22, 2024.
Artley B. Unsupervised Learning: k-means Clustering. Towards Data Science: [Online]. Available: https://towardsdatascience.com/unsupervised-learning-k-means-clustering-27416b95af27 Accessed on: May 20, 2024.
D. Arthur,S. Vassilvitskii, "k-means++: the advantages of careful seeding", in Proc. of the Eighteenth annual ACM-SIAM symposium on Discrete algorithms, Philadelphia, PA, USA., 2007, pp. 1027–1035.
Christopher A. Hierarchical Clustering and Density-Based Spatial Clustering of Applications with Noise (DBSCAN): Online]. Available: https://medium.com/mlearning-ai/hierarchical-clustering-and-density-based-spatial-clustering-of-applications-with-noise-dbscan-b8d903095532 Accessed on: May 10, 2024.
J. Sander, "Density-Based Clustering", in Encyclopedia of Machine Learning,. C. Sammut, G. I. Webb, Eds. Boston, MA, USA:Springer, 2011, pp. 349-353.
Damir Demirović, "An Implementation of the Mean Shift Algorithm", Image Processing On Line, no. 9, pp. 251–268, 2019.
Scikit-learn User Guide: [Online]. Available: https://scikit-learn.org/stable/user_guide.html Accessed on: May 22, 2024.
Pandas documentation: [Online]. Available: https://pandas.pydata.org/ Accessed on: May 24, 2024.
Memory-profiler: [Online]. Available: https://pypi.org/project/memory-profiler/ Accessed on: May 24, 2024.
Euclidean distance score and similarity. Available: https://stats.stackexchange.com/questions/53068/euclidean-distance-score-and-similarity Accessed on: May 24, 2024.
Elbow Method for optimal value of k in k-means? Available: https://www.geeksforgeeks.org/elbow-method-for-optimal-value-of-k-in-kmeans/ Accessed on: May 24, 2024.