Кластеризація та класифікація часових звукових рядів

doi:10.26565/2519-2310-2024-1-04

Станіслав Качанов аспірант, Харківський національний університет імені В.Н. Каразіна, майдан Свободи, 4, Харків, 61022, Україна https://orcid.org/0009-0002-6938-6717
Дмитро Власенко старший викладач кафедри теоретичних та прикладних комп’ютерних наук, кандидат математичних наук, Харківський національний університет імені В.Н. Каразіна, майдан Свободи, 4, Харків, 61022, Україна https://orcid.org/0009-0006-8780-2066

DOI: https://doi.org/10.26565/2519-2310-2024-1-04

Ключові слова: класифікація часових рядів, кластеризація часових рядів, рекурентна нейронна мережа, LSTM

Анотація

Було розглянуто дві важливі задачі в аналізі даних – класифікація та кластеризація часових рядів на прикладі звукових записів серцебиття людей. Однією з основних проблем аналізу часових рядів є складність порівняння різних рядів через їх варіативність у довжині, формі та амплітуді коливань. Для вирішення цих задач були використані різні алгоритми, серед яких рекурентна нейронна мережа з довгою короткочасною пам'яттю (LSTM) і алгоритм k найближчих сусідів для класифікації, та метод k-середніх (K-means) і DBSCAN для кластеризації. Результати дослідження показали, що LSTM є потужним інструментом для класифікації часових рядів завдяки здатності зберігати інформацію про контекст у часі. KNN, з іншого боку, продемонстрував високу точність і швидкість класифікації, однак його обмеження проявилися в умовах великих наборів даних. Для задач кластеризації, метод K-means виявився більш ефективним у порівнянні з DBSCAN, демонструючи вищу якість кластеризації за метриками силуету, Rand Score та іншими. Дані для дослідження були отримані з архіву часових рядів UCR, що включає звукові записи серцебиття різних категорій. Аналіз результатів показав, що обрані методи класифікації та кластеризації можуть бути ефективно використані для діагностики серцевих захворювань. Крім того, це дослідження відкрило нові можливості для подальшого вдосконалення методів обробки та аналізу даних, зокрема, для розробки нових інструментів медичної діагностики. Таким чином, ця робота демонструє ефективність використання алгоритмів машинного навчання для аналізу часових рядів та їх значення для покращення діагностики серцево-судинних захворювань.

Завантаження

##plugins.generic.usageStats.noStats##

Посилання

Hochreiter, S., & Schmidhuber, J. (1997). Long short-term memory. Neural computation, 9(8), 1735-1780. https://doi.org/10.1162/neco.1997.9.8.1735

Greff, K., Srivastava, R. K., Koutník, J., Steunebrink, B. R., & Schmidhuber, J. (2017). LSTM: A search space odyssey. IEEE transactions on neural networks and learning systems, 28(10), 2222-2232. https://doi.org/10.1109/TNNLS.2016.2582924

Zhang, Z. (2004). Nearest neighbor search algorithms and applications. Springer. https://doi.org/10.1007/978-3-319-14717-8_39

Dasarathy, B. V. (1991). Nearest neighbor (NN) norms: NN pattern classification techniques. IEEE Computer Society Press.

Hastie, T., Tibshirani, R., & Friedman, J. (2009). The elements of statistical learning: data mining, inference, and prediction. Springer Science & Business Media. https://doi.org/10.1007/978-0-387-84858-7

Xu, R., & Wunsch, D. (2005). Survey of clustering algorithms. IEEE Transactions on Neural Networks, 16(3), 645–678. https://doi.org/10.1109/TNN.2005.845141

Martin Ester, Jörg Sander (1996). "Density-Based Clustering in Spatial Databases: The Algorithm GDBSCAN and Its Applications". Data Mining and Knowledge Discovery. 2 (2): 169–194. https://doi.org/10.1007/BF00457189

Hoang A.D., Bagnall A., Kaveh K., Chin-Chia M.Y., Zhu Y., Shaghayegh G., Chotirat A.R., Eamonn K. The UCR Time Series Archive https://arxiv.org/abs/1810.07758

Schubert, E., Sander, J., Ester, M., Kriegel, H.-P., & Xu, X. (2017). "DBSCAN revisited, revisited: why and how you should (still) use DBSCAN". ACM Transactions on Database Systems (TODS), 42(3), 19. https://doi.org/10.1145/3068335

Kachanov Stanislav (2024) Clustering and Classification of Time Series Data (master diploma) V. N. Karazin Kharkiv National University