Модель класифікації спам-повідомлень у медичних інформаційних системах

  • Катерина Волинець Харківський національний університет імені В.Н. Каразіна, майдан Свободи, 6, Харків, Україна, 61022 https://orcid.org/0009-0003-7661-9758
  • Вікторія Стрілець Харківський національний університет імені В.Н. Каразіна, майдан Свободи, 6, Харків, Україна, 61022 https://orcid.org/0000-0002-2475-1496
  • Данило Яковлев Харківський національний університет імені В.Н. Каразіна, майдан Свободи, 6, Харків, Україна, 61022 https://orcid.org/0009-0005-4785-6361
Ключові слова: спам-повідомлення, медичні інформаційні системи, машинне навчання, обробка природної мови, класифікація текстових даних

Анотація

Актуальність. У сучасних медичних інформаційних системах щодень генерується значна кількість текстових записів від пацієнтів, лікарів та персоналу. Для якісної роботи такі систем потребують впровадження моделей і методів аналізу і класифікації текстових даних, зокрема виявленню спамових повідомлень і їх блокуванню. Тому розробка, удосконалення і впровадження моделей і методів класифікації спам-повідомлень є актуальним завданням.

Мета дослідження: покращення якості моделей класифікації спам-повідомлень, що дозволить з високою вірогідністю виявляти і фільтрувати небажані повідомлення у медичних інформаційних системах.

Методи дослідження: методи обробки природної мови, моделювання, машинне навчання, методи класифікації, методи аналізу даних, статистичні методи.

Результати. Були побудовані моделі класифікації спам-повідомлень із використанням таких методів машинного навчання як модель логістичної регресії, модель наївного Баєйсівського класифікатора та модель опорних векторів. Для навчання моделей використаних набір SMS Spam Collection, попередньо підготовлений із використанням CountVectorizer та TF-IDFVectorizer. Усі запропоновані моделі показали високу точність у класифікації спам-повідомлень.

Висновки: розроблені моделі класифікації повідомлень на основі машинного навчання та nlp-підходу успішно визначають небажані повідомлення. Кращою за показниками якості виявилася модель на основі методу опорних векторів з TF-IDF векторизацією, оскільки вона показала найвище значення точності (98.75%) та високу повноту (90.3%) класифікації. Подальші вдосконалення моделей та розширення навчального набору можуть сприяти подальшому покращенню якості розпізнавання спаму.

Завантаження

##plugins.generic.usageStats.noStats##

Біографії авторів

Катерина Волинець, Харківський національний університет імені В.Н. Каразіна, майдан Свободи, 6, Харків, Україна, 61022

студентка ННІ комп’ютерних наук та штучного інтелекту

Вікторія Стрілець, Харківський національний університет імені В.Н. Каразіна, майдан Свободи, 6, Харків, Україна, 61022

к.т.н., доцент кафедри комп’ютерних систем та робототехніки, ННІ комп’ютерних наук та штучного інтелекту

Данило Яковлев, Харківський національний університет імені В.Н. Каразіна, майдан Свободи, 6, Харків, Україна, 61022

студент ННІ комп’ютерних наук та штучного інтелекту

Посилання

/

Посилання

Опубліковано
2024-11-25
Як цитувати
Волинець, К., Стрілець, В., & Яковлев, Д. (2024). Модель класифікації спам-повідомлень у медичних інформаційних системах. Вісник Харківського національного університету імені В.Н. Каразіна, серія «Математичне моделювання. Інформаційні технології. Автоматизовані системи управління», 64, 25-31. https://doi.org/10.26565/2304-6201-2024-64-03
Розділ
Статті

Найбільш популярні статті цього автора (авторів)