Аналіз впливу різних векторних представлень слів на точність класифікації текстових даних

  • Ігор Малига Харківський Національний Університет ім. В.Н. Каразіна, майдан Свободи 4, Харків, Україна, 61022 https://orcid.org/0000-0002-5708-7739
  • Сергій Шматков Харківський Національний Університет ім. В.Н. Каразіна, майдан Свободи 4, Харків, Україна, 61022 https://orcid.org/0000-0002-6328-988X
Ключові слова: Машинне навчання, обробка природної мови, семантика, контекст, текстові дані, нейронні мережі, трансформери, BERT, GPT-3, аналіз даних, аналіз сентименту, семантичний аналіз

Анотація

Актуальність. Зростання обсягу доступної текстової інформації в Інтернеті та інших джерелах створює необхідність у вдосконаленні методів обробки тексту для ефективного аналізу та використання цих даних. Векторне представлення слів визначається як ключовий елемент у цьому контексті, оскільки воно дозволяє перетворювати слова у числові вектори, зберігаючи семантичні відносини. З розвитком сучасних методів машинного навчання, особливо глибокого навчання, векторні представлення слів стали важливим елементом для покращення результатів моделей в обробці текстових даних. Такі моделі вимагають якісних та семантично насичених векторних представлень.Усе це визначає актуальність вивчення впливу різних векторних представлень слів на обробку текстових даних та виявлення оптимальних методів для конкретних завдань.

Мета: Мета даної статті полягає в систематичному аналізі впливу різних методів векторизації слів на результати обробки текстових даних. Дослідження спрямоване на визначення оптимальних підходів до векторної репрезентації слів для покращення ефективності та точності моделей обробки тексту в різноманітних завданнях штучного інтелекту та машинного навчання.

Методи дослідження. Аналіз, експеримент.

Результати. Виявлено, що, не дивлячись на значний прогрес у технологіях машинного навчання, проблеми семантики та контексту при обробці текстових даних все ще мають місце. Вони впливають на якість і точність рішень, прийнятих системами, заснованими на машинному навчанні, що може привести до неправильного аналізу і викривлення даних. Виявлено, що навіть сучасні моделі на основі трансформерів можуть зіткнутися з викликами розуміння семантики та контексту, особливо у складних і багатозначних сценаріях.

Висновки. На основі проведеного дослідження було зроблено висновки, що проблема семантики та контексту в обробці текстових даних є суттєвою і вимагає подальшого вивчення. Існуючі методи і технології, хоча і показують високі результати в деяких задачах, можуть бути недостатніми в інших, особливо складних, ситуаціях. Пропонується продовжити дослідження в цій області, розробляти нові методи і підходи, які б можливо, будуть здатні ефективно вирішувати ці проблеми. Також важливим є вивчення того, як різні контекстуальні фактори впливають на семантику текстових даних та як ці впливи можна врахувати при проектуванні та використанні систем машинного навчання.

Завантаження

##plugins.generic.usageStats.noStats##

Біографії авторів

Ігор Малига, Харківський Національний Університет ім. В.Н. Каразіна, майдан Свободи 4, Харків, Україна, 61022

аспірант

Сергій Шматков, Харківський Національний Університет ім. В.Н. Каразіна, майдан Свободи 4, Харків, Україна, 61022

д.т.н., профессор; завідуючий кафедри теоретичної теоретичної та прикладної системотехніки

Посилання

/

Посилання

Опубліковано
2023-10-30
Як цитувати
Малига, І., & Шматков, С. (2023). Аналіз впливу різних векторних представлень слів на точність класифікації текстових даних. Вісник Харківського національного університету імені В.Н. Каразіна, серія «Математичне моделювання. Інформаційні технології. Автоматизовані системи управління», 59, 49-55. https://doi.org/10.26565/2304-6201-2023-59-05
Розділ
Статті