Оцінка корисності публічного набору даних для аналітичних досліджень

  • Оксана Подоляка Харківський національний університет імені В. Н. Каразіна, площа Свободи 4, Харків, Україна, 61022 https://orcid.org/0000-0002-3401-2996
  • Олексій Подоляка Харківський національний університет імені В. Н. Каразіна, площа Свободи 4, Харків, Україна, 61022 https://orcid.org/0000-0002-5755-3728
Ключові слова: конфіденційність, деідентифікація, публікація даних, корисність даних, GDPR (General Data Protection Regulation)

Анотація

Організації та агенції публікують різні дані, які призначені для аналізу, навчання систем штучного інтелекту та інших дослідницьких цілей. Відповідно до прийнятих регуляцій у сфері захисту персональних даних публічні дані мають бути знеособлені та захищені від різних загроз розкриття персональних даних. Усунення цих загроз реалізується шляхом зменшення точності даних під час підготовки публічних даних. Втрата точності, вочевидь, призводить до зменшення корисності даних для аналізу. У роботі розглядаються ентропійні метрики корисності та проблеми їх обчислюваності, а також метрики втрати корисності окремих підмножин публічних даних.

Мета. Розробка ефективних метрик оцінки корисності публічного набору даних для аналізу з урахуванням вимог  захисту персональних даних. 

Методи дослідження. Інформаційна безпека, теорія інформації Шенона, управління даними (Data Governance).

Результати. Запропоновані  метрики оцінки втрат інформації та корисності даних для аналізу на основі ентропійних метрик теорії інформації Шеннона. Запропоновано процедури, спрямовані на підвищення швидкодії обчислень розглянутих метрик.

Висновки. Описано процедури побудови безпечного публічного набору даних. Розглянуто питання застосування ентропійних метрик теорії інформації Шеннона для оцінки втрат інформації та корисності даних для аналізу. Показано, що обчислення зазначених метрик є складною, практично не здійсненною для великих баз даних, обчислювальною задачею. Запропоновано процедури, спрямовані на підвищення швидкодії обчислень розглянутих метрик. А саме, створення менш точної копії вихідних даних та формування випадкової вибірки із великої бази даних для обчислення необхідних статистик. Розглянуто метрики оцінки корисності для окремих підмножин (кластерів) публічних даних.

Завантаження

##plugins.generic.usageStats.noStats##

Біографії авторів

Оксана Подоляка, Харківський національний університет імені В. Н. Каразіна, площа Свободи 4, Харків, Україна, 61022

к. т. н., доцент

Олексій Подоляка, Харківський національний університет імені В. Н. Каразіна, площа Свободи 4, Харків, Україна, 61022

старший викладач

Посилання

/

Посилання

Опубліковано
2024-05-27
Як цитувати
Подоляка, О., & Подоляка, О. (2024). Оцінка корисності публічного набору даних для аналітичних досліджень. Вісник Харківського національного університету імені В.Н. Каразіна, серія «Математичне моделювання. Інформаційні технології. Автоматизовані системи управління», 61, 61-67. https://doi.org/10.26565/2304-6201-2024-61-07
Розділ
Статті