Модель класифікації спам-повідомлень у медичних інформаційних системах
Анотація
Актуальність. У сучасних медичних інформаційних системах щодень генерується значна кількість текстових записів від пацієнтів, лікарів та персоналу. Для якісної роботи такі систем потребують впровадження моделей і методів аналізу і класифікації текстових даних, зокрема виявленню спамових повідомлень і їх блокуванню. Тому розробка, удосконалення і впровадження моделей і методів класифікації спам-повідомлень є актуальним завданням.
Мета дослідження: покращення якості моделей класифікації спам-повідомлень, що дозволить з високою вірогідністю виявляти і фільтрувати небажані повідомлення у медичних інформаційних системах.
Методи дослідження: методи обробки природної мови, моделювання, машинне навчання, методи класифікації, методи аналізу даних, статистичні методи.
Результати. Були побудовані моделі класифікації спам-повідомлень із використанням таких методів машинного навчання як модель логістичної регресії, модель наївного Баєйсівського класифікатора та модель опорних векторів. Для навчання моделей використаних набір SMS Spam Collection, попередньо підготовлений із використанням CountVectorizer та TF-IDFVectorizer. Усі запропоновані моделі показали високу точність у класифікації спам-повідомлень.
Висновки: розроблені моделі класифікації повідомлень на основі машинного навчання та nlp-підходу успішно визначають небажані повідомлення. Кращою за показниками якості виявилася модель на основі методу опорних векторів з TF-IDF векторизацією, оскільки вона показала найвище значення точності (98.75%) та високу повноту (90.3%) класифікації. Подальші вдосконалення моделей та розширення навчального набору можуть сприяти подальшому покращенню якості розпізнавання спаму.
Завантаження
Посилання
/Посилання
Steven Bird, Ewan Klein, Edward Loper. Natural Language Processing with Python: Analyzing Text with the Natural Language Toolkit. O’Reilly Media Inc. 2009. 504 p.
Wang, M., Sun, Z., Jia, M. et al. Intelligent virtual case learning system based on real medical records and natural language processing. BMC Med Inform Decis Mak 22, 60 (2022). https://doi.org/10.1186/s12911-022-01797-7.
Robert M. Cronin, Daniel Fabbri, Joshua C. Denny, S. Trent Rosenbloom, Gretchen Purcell Jackson. A comparison of rule-based and machine learning approaches for classifying patient portal messages. International Journal of Medical Informatics, Vol. 105, P. 110-120, 2017. https://doi.org/10.1016/j.ijmedinf.2017.06.004
Elbattah M., Arnaud É., Gignon M., Dequen G. The Role of Text Analytics in Healthcare: A Review of Recent Developments and Applications. Proceedings of the 14th International Joint Conference on Biomedical Engineering Systems and Technologies (BIOSTEC 2021), Volume 5: HEALTHINF, P. 825-832, 2021. DOI: 10.5220/0010414508250832.
Turchin Alexander, Masharsky Stanislav, Zitnik Marinka. Comparison of BERT implementations for natural language processing of narrative medical documents. Informatics in Medicine Unlocked, 36, 2022. DOI: 101139. 10.1016/j.imu.2022.101139.
Zhou Binggui, Yang Guanghua, Shi Zheng, Ma Shaodan. Natural Language Processing for Smart Healthcare. IEEE Reviews in Biomedical Engineering, 2021. DOI: 10.48550/arXiv.2110.15803.
Jurafsky Daniel, Martin James H. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. 3rd edition. Prentice Hall, 2019, 621 p. URL: https://web.stanford.edu/~jurafsky/slp3/ed3book.pdf (Last accessed: 20.11.2024)
Almeida T., Hidalgo J. SMS Spam Collection [Dataset]. UCI Machine Learning Repository. 2011. https://doi.org/10.24432/C5CC84.
Steven Bird, Ewan Klein, Edward Loper. Natural Language Processing with Python: Analyzing Text with the Natural Language Toolkit. O’Reilly Media Inc. 2009. 504 p.
Wang, M., Sun, Z., Jia, M. et al. Intelligent virtual case learning system based on real medical records and natural language processing. BMC Med Inform Decis Mak 22, 60 (2022). https://doi.org/10.1186/s12911-022-01797-7.
Robert M. Cronin, Daniel Fabbri, Joshua C. Denny, S. Trent Rosenbloom, Gretchen Purcell Jackson. A comparison of rule-based and machine learning approaches for classifying patient portal messages. International Journal of Medical Informatics, 2017. Vol. 105. P. 110-120. https://doi.org/10.1016/j.ijmedinf.2017.06.004
Elbattah M., Arnaud É., Gignon M., Dequen G. The Role of Text Analytics in Healthcare: A Review of Recent Developments and Applications. Proceedings of the 14th International Joint Conference on Biomedical Engineering Systems and Technologies (BIOSTEC 2021), Volume 5: HEALTHINF, 2021. P. 825-832. DOI: 10.5220/0010414508250832.
Turchin Alexander, Masharsky Stanislav, Zitnik Marinka. Comparison of BERT implementations for natural language processing of narrative medical documents. Informatics in Medicine Unlocked, 36, 2022. DOI: 101139. 10.1016/j.imu.2022.101139.
Zhou Binggui, Yang Guanghua, Shi Zheng, Ma Shaodan. Natural Language Processing for Smart Healthcare. IEEE Reviews in Biomedical Engineering, 2021. DOI: 10.48550/arXiv.2110.15803.
Jurafsky Daniel, Martin James H. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. 3rd edition. Prentice Hall, 2019. 621 p. URL: https://web.stanford.edu/~jurafsky/slp3/ed3book.pdf (Last accessed: 20.11.2024)
Almeida T., Hidalgo J. SMS Spam Collection [Dataset]. UCI Machine Learning Repository. 2011. https://doi.org/10.24432/C5CC84.