Використання нейронних мереж для масштабування табличних даних тренувальних dataset

  • Дмитро Узлов Харківський національний університет імені В .Н. Каразіна, майдан Свободи, 4, Харків, Україна, 61022 https://orcid.org/0000-0003-3308-424X
  • Анастасія Морозова Харківський національний університет імені В .Н. Каразіна, майдан Свободи, 4, Харків, Україна, 61022 https://orcid.org/0000-0003-2143-7992
  • Вікторія Кузнєцова Харківський національний університет імені В .Н. Каразіна, майдан Свободи, 4, Харків, Україна, 61022 https://orcid.org/0000-0003-3882-1333
  • Кирило Руккас Харківський національний університет імені В .Н. Каразіна, майдан Свободи, 4, Харків, Україна, 61022 https://orcid.org/0000-0002-7614-0793
Ключові слова: нейронні мережі, database, табличні дані, data augmentation, training dataset, штучний інтелект, deep learning

Анотація

У роботі запропоновано метод збільшення табличних даних тренувальних dataset за допомогою нейронних мереж, описано архітектуру таких мереж.

Актуальність. На даний час існує проблема недостатньої кількості вихідних даних для навчання моделей штучного інтелекту, що призводить до значної похибки моделювання. Робота присвячено розробці підходів до генераціїї штучних табличних даних, які можна використовувати надалі для моделей штучного інтелекту.

Мета. Метою роботи було проаналізувати методи та алгоритми для збільшення training dataset для табличних даних за допомогою нейронних мереж.

Методи дослідження. Основним методом дослідження є процес підбору параметрів алгоритму генерації штучних даних та вибір оптимальних параметрів архітектури нейронної мережі.

Результати. Використання нейронних мереж для масштабування табличних даних тренувальних dataset підтвердило працездатність запропонованого підходу. Результати налаштування алгоритму та вибір оптимальних параметрів нейронної мережі показали, що згенеровані штучні дані найбільше нагадують початкові по критеріям середнього значення, максимального, мінімального та залежності між даними.

Висновки. Вирішено задачу масштабування табличних даних тренувальних dataset за допомогою нейронних мереж. Такий підхід дозволяє значно спростити процес навчання нейронних мереж. Наукова новизна даної роботи полягає в розробці підходів і методів збільшення табличних даних з використанням штучного інтелекту та deep learning.

Завантаження

Біографії авторів

Дмитро Узлов, Харківський національний університет імені В .Н. Каразіна, майдан Свободи, 4, Харків, Україна, 61022

к.т.н., доцент закладу вищої освіти кафедри теоретичної та прикладної інформатики

Анастасія Морозова, Харківський національний університет імені В .Н. Каразіна, майдан Свободи, 4, Харків, Україна, 61022

к.т.н., старший викладач закладу вищої освіти кафедри теоретичної та прикладної інформатики

Вікторія Кузнєцова, Харківський національний університет імені В .Н. Каразіна, майдан Свободи, 4, Харків, Україна, 61022

к.ф-м.н., доцент закладу вищої освіти кафедри вищої математики та інформатики

Кирило Руккас, Харківський національний університет імені В .Н. Каразіна, майдан Свободи, 4, Харків, Україна, 61022

д.т.н, доцент, професор закладу вищої освіти кафедри теоретичної та прикладної інформатики

Посилання

/

Посилання

Abinaya Mahendiran, Vedanth Subramaniam. Data Augmentation Techniques for Tabular Data. Mphasis. https://www.mphasis.com/content/dam/mphasis-com/global/en/home/innovation/next-lab/Mphasis_Data-Augmentation-for-Tabular-Data_Whitepaper.pdf

Luis Perez, Jason Wang. The Effectiveness of Data Augmentation in Image Classification using Deep Learning. arXiv:1712.04621, 2017. https://arxiv.org/pdf/1712.04621

Shorten, C., Khoshgoftaar, T.M. & Furht, B. Text Data Augmentation for Deep Learning. J Big Data 8, 101 (2021). https://doi.org/10.1186/s40537-021-00492-0

Qizhe Xie, Zihang Dai, Eduard Hovy, Minh-Thang Luong, Quoc V. Le. Unsupervised Data Augmentation for Consistency Training. arXiv:1904.12848v6, 2020. https://arxiv.org/pdf/1904.12848v6

E. Jannik Bjerrum. SMILES Enumeration as Data Augmentation for Neural Network Modeling of Molecules. ArXive-prints, Mar. 2017

Alhassan Mumuni, Fuseini Mumuni. Data augmentation: A comprehensive survey of modern approaches. https://doi.org/10.1016/j.array.2022.100258

Ioffe S., Szegedy C. Batch normalization: Accelerating deep network training by reducing internal covariate shift. International conference on machine learning, PMLR (2015), pp. 448-456

Agnieszka Mikolajczyk, Michal Grochowski. Data augmentation for improving deep learning in image classification problem. 2018 International Interdisciplinary PhD Workshop (IIPhDW). DOI:10.1109/IIPHDW.2018.8388338

https://github.com/lschmiddey/deep_tabular_augmentation

https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html

https://docs.synthetic.ydata.ai/1.4

Опубліковано
2023-10-30
Як цитувати
Узлов, Д., Морозова, А., Кузнєцова, В., & Руккас, К. (2023). Використання нейронних мереж для масштабування табличних даних тренувальних dataset. Вісник Харківського національного університету імені В.Н. Каразіна, серія «Математичне моделювання. Інформаційні технології. Автоматизовані системи управління», 59, 63-71. https://doi.org/10.26565/2304-6201-2023-59-07
Розділ
Статті