Кластеризація та класифікація часових звукових рядів
Анотація
Було розглянуто дві важливі задачі в аналізі даних – класифікація та кластеризація часових рядів на прикладі звукових записів серцебиття людей. Однією з основних проблем аналізу часових рядів є складність порівняння різних рядів через їх варіативність у довжині, формі та амплітуді коливань. Для вирішення цих задач були використані різні алгоритми, серед яких рекурентна нейронна мережа з довгою короткочасною пам'яттю (LSTM) і алгоритм k найближчих сусідів для класифікації, та метод k-середніх (K-means) і DBSCAN для кластеризації. Результати дослідження показали, що LSTM є потужним інструментом для класифікації часових рядів завдяки здатності зберігати інформацію про контекст у часі. KNN, з іншого боку, продемонстрував високу точність і швидкість класифікації, однак його обмеження проявилися в умовах великих наборів даних. Для задач кластеризації, метод K-means виявився більш ефективним у порівнянні з DBSCAN, демонструючи вищу якість кластеризації за метриками силуету, Rand Score та іншими. Дані для дослідження були отримані з архіву часових рядів UCR, що включає звукові записи серцебиття різних категорій. Аналіз результатів показав, що обрані методи класифікації та кластеризації можуть бути ефективно використані для діагностики серцевих захворювань. Крім того, це дослідження відкрило нові можливості для подальшого вдосконалення методів обробки та аналізу даних, зокрема, для розробки нових інструментів медичної діагностики. Таким чином, ця робота демонструє ефективність використання алгоритмів машинного навчання для аналізу часових рядів та їх значення для покращення діагностики серцево-судинних захворювань.
Завантаження
Посилання
Hochreiter, S., & Schmidhuber, J. (1997). Long short-term memory. Neural computation, 9(8), 1735-1780. https://doi.org/10.1162/neco.1997.9.8.1735
Greff, K., Srivastava, R. K., Koutník, J., Steunebrink, B. R., & Schmidhuber, J. (2017). LSTM: A search space odyssey. IEEE transactions on neural networks and learning systems, 28(10), 2222-2232. https://doi.org/10.1109/TNNLS.2016.2582924
Zhang, Z. (2004). Nearest neighbor search algorithms and applications. Springer. https://doi.org/10.1007/978-3-319-14717-8_39
Dasarathy, B. V. (1991). Nearest neighbor (NN) norms: NN pattern classification techniques. IEEE Computer Society Press.
Hastie, T., Tibshirani, R., & Friedman, J. (2009). The elements of statistical learning: data mining, inference, and prediction. Springer Science & Business Media. https://doi.org/10.1007/978-0-387-84858-7
Xu, R., & Wunsch, D. (2005). Survey of clustering algorithms. IEEE Transactions on Neural Networks, 16(3), 645–678. https://doi.org/10.1109/TNN.2005.845141
Martin Ester, Jörg Sander (1996). "Density-Based Clustering in Spatial Databases: The Algorithm GDBSCAN and Its Applications". Data Mining and Knowledge Discovery. 2 (2): 169–194. https://doi.org/10.1007/BF00457189
Hoang A.D., Bagnall A., Kaveh K., Chin-Chia M.Y., Zhu Y., Shaghayegh G., Chotirat A.R., Eamonn K. The UCR Time Series Archive https://arxiv.org/abs/1810.07758
Schubert, E., Sander, J., Ester, M., Kriegel, H.-P., & Xu, X. (2017). "DBSCAN revisited, revisited: why and how you should (still) use DBSCAN". ACM Transactions on Database Systems (TODS), 42(3), 19. https://doi.org/10.1145/3068335
Kachanov Stanislav (2024) Clustering and Classification of Time Series Data (master diploma) V. N. Karazin Kharkiv National University
Авторське право (c) 2024 Комп’ютерні науки та кібербезпека
Цю роботу ліцензовано за Міжнародня ліцензія Creative Commons Attribution 4.0.