Модель класифікації спам-повідомлень у медичних інформаційних системах

doi:10.26565/2304-6201-2024-64-03

Катерина Волинець Харківський національний університет імені В.Н. Каразіна, майдан Свободи, 6, Харків, Україна, 61022 https://orcid.org/0009-0003-7661-9758
Вікторія Стрілець Харківський національний університет імені В.Н. Каразіна, майдан Свободи, 6, Харків, Україна, 61022 https://orcid.org/0000-0002-2475-1496
Данило Яковлев Харківський національний університет імені В.Н. Каразіна, майдан Свободи, 6, Харків, Україна, 61022 https://orcid.org/0009-0005-4785-6361

DOI: https://doi.org/10.26565/2304-6201-2024-64-03

Ключові слова: спам-повідомлення, медичні інформаційні системи, машинне навчання, обробка природної мови, класифікація текстових даних

Анотація

Актуальність. У сучасних медичних інформаційних системах щодень генерується значна кількість текстових записів від пацієнтів, лікарів та персоналу. Для якісної роботи такі систем потребують впровадження моделей і методів аналізу і класифікації текстових даних, зокрема виявленню спамових повідомлень і їх блокуванню. Тому розробка, удосконалення і впровадження моделей і методів класифікації спам-повідомлень є актуальним завданням.

Мета дослідження: покращення якості моделей класифікації спам-повідомлень, що дозволить з високою вірогідністю виявляти і фільтрувати небажані повідомлення у медичних інформаційних системах.

Методи дослідження: методи обробки природної мови, моделювання, машинне навчання, методи класифікації, методи аналізу даних, статистичні методи.

Результати. Були побудовані моделі класифікації спам-повідомлень із використанням таких методів машинного навчання як модель логістичної регресії, модель наївного Баєйсівського класифікатора та модель опорних векторів. Для навчання моделей використаних набір SMS Spam Collection, попередньо підготовлений із використанням CountVectorizer та TF-IDFVectorizer. Усі запропоновані моделі показали високу точність у класифікації спам-повідомлень.

Висновки: розроблені моделі класифікації повідомлень на основі машинного навчання та nlp-підходу успішно визначають небажані повідомлення. Кращою за показниками якості виявилася модель на основі методу опорних векторів з TF-IDF векторизацією, оскільки вона показала найвище значення точності (98.75%) та високу повноту (90.3%) класифікації. Подальші вдосконалення моделей та розширення навчального набору можуть сприяти подальшому покращенню якості розпізнавання спаму.

Завантаження

##plugins.generic.usageStats.noStats##

Біографії авторів

Катерина Волинець, Харківський національний університет імені В.Н. Каразіна, майдан Свободи, 6, Харків, Україна, 61022

студентка ННІ комп’ютерних наук та штучного інтелекту

Вікторія Стрілець, Харківський національний університет імені В.Н. Каразіна, майдан Свободи, 6, Харків, Україна, 61022

к.т.н., доцент кафедри комп’ютерних систем та робототехніки, ННІ комп’ютерних наук та штучного інтелекту

Данило Яковлев, Харківський національний університет імені В.Н. Каразіна, майдан Свободи, 6, Харків, Україна, 61022

студент ННІ комп’ютерних наук та штучного інтелекту

Посилання

/

Посилання

Steven Bird, Ewan Klein, Edward Loper. Natural Language Processing with Python: Analyzing Text with the Natural Language Toolkit. O’Reilly Media Inc. 2009. 504 p.

Wang, M., Sun, Z., Jia, M. et al. Intelligent virtual case learning system based on real medical records and natural language processing. BMC Med Inform Decis Mak 22, 60 (2022). https://doi.org/10.1186/s12911-022-01797-7.

Robert M. Cronin, Daniel Fabbri, Joshua C. Denny, S. Trent Rosenbloom, Gretchen Purcell Jackson. A comparison of rule-based and machine learning approaches for classifying patient portal messages. International Journal of Medical Informatics, 2017. Vol. 105. P. 110-120. https://doi.org/10.1016/j.ijmedinf.2017.06.004

Elbattah M., Arnaud É., Gignon M., Dequen G. The Role of Text Analytics in Healthcare: A Review of Recent Developments and Applications. Proceedings of the 14th International Joint Conference on Biomedical Engineering Systems and Technologies (BIOSTEC 2021), Volume 5: HEALTHINF, 2021. P. 825-832. DOI: 10.5220/0010414508250832.

Turchin Alexander, Masharsky Stanislav, Zitnik Marinka. Comparison of BERT implementations for natural language processing of narrative medical documents. Informatics in Medicine Unlocked, 36, 2022. DOI: 101139. 10.1016/j.imu.2022.101139.

Zhou Binggui, Yang Guanghua, Shi Zheng, Ma Shaodan. Natural Language Processing for Smart Healthcare. IEEE Reviews in Biomedical Engineering, 2021. DOI: 10.48550/arXiv.2110.15803.

Jurafsky Daniel, Martin James H. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. 3rd edition. Prentice Hall, 2019. 621 p. URL: https://web.stanford.edu/~jurafsky/slp3/ed3book.pdf (Last accessed: 20.11.2024)

Almeida T., Hidalgo J. SMS Spam Collection [Dataset]. UCI Machine Learning Repository. 2011. https://doi.org/10.24432/C5CC84.

Модель класифікації спам-повідомлень у медичних інформаційних системах

Анотація

Завантаження

Біографії авторів

Посилання

Посилання

Найбільш популярні статті цього автора (авторів)