Оцінка корисності публічного набору даних для аналітичних досліджень
Анотація
Організації та агенції публікують різні дані, які призначені для аналізу, навчання систем штучного інтелекту та інших дослідницьких цілей. Відповідно до прийнятих регуляцій у сфері захисту персональних даних публічні дані мають бути знеособлені та захищені від різних загроз розкриття персональних даних. Усунення цих загроз реалізується шляхом зменшення точності даних під час підготовки публічних даних. Втрата точності, вочевидь, призводить до зменшення корисності даних для аналізу. У роботі розглядаються ентропійні метрики корисності та проблеми їх обчислюваності, а також метрики втрати корисності окремих підмножин публічних даних.
Мета. Розробка ефективних метрик оцінки корисності публічного набору даних для аналізу з урахуванням вимог захисту персональних даних.
Методи дослідження. Інформаційна безпека, теорія інформації Шенона, управління даними (Data Governance).
Результати. Запропоновані метрики оцінки втрат інформації та корисності даних для аналізу на основі ентропійних метрик теорії інформації Шеннона. Запропоновано процедури, спрямовані на підвищення швидкодії обчислень розглянутих метрик.
Висновки. Описано процедури побудови безпечного публічного набору даних. Розглянуто питання застосування ентропійних метрик теорії інформації Шеннона для оцінки втрат інформації та корисності даних для аналізу. Показано, що обчислення зазначених метрик є складною, практично не здійсненною для великих баз даних, обчислювальною задачею. Запропоновано процедури, спрямовані на підвищення швидкодії обчислень розглянутих метрик. А саме, створення менш точної копії вихідних даних та формування випадкової вибірки із великої бази даних для обчислення необхідних статистик. Розглянуто метрики оцінки корисності для окремих підмножин (кластерів) публічних даних.
Завантаження
Посилання
/Посилання
Dankar, F., Emam, K.E., Neisa, A., Roffey, T.: Estimating the re-identification risk of clinical data sets. BMC Med. Inform. Decis. Mak, 2012. №12 (66). P. 1-15.
B.A. Malin, D. Karp, R.H. Scheuermann. Technical and policy approaches to balancing patient privacy and data sharing in clinical and translational research. J. Investig. Med., 2010. 58 (1). P. 11-18.
Li, Tiancheng & Li, Ninghui. On the tradeoff between privacy and utility in data publishing. Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2009. P. 517-526.
Fung, Benjamin & Wang, ke & Chen, Rui & Yu, Philip. Privacy-Preserving Data Publishing: A Survey of Recent Developments. ACM Comput. Surv, 2010. №4 (14). P. 1-53.
Yaseen, Saba & Abbas, Syed & Anjum, Adeel & Saba, Tanzila & Khan, Abid & Malik, Saif & Ahmad, Naveed & Shahzad, Basit & Bashir, Ali. Improved Generalization for Secure Data Publishing. IEEE Access, 2018. P. 27156-27165.
Fung, Benjamin & Wang, Ke & Fu, Ada & Yu, Philip. Introduction to Privacy-Preserving Data Publishing: Concepts and Techniques, 2010. 376 s. ISBN: 9780429138737.
Li, Ninghui & Li, Tiancheng & Venkatasubramanian, Suresh. t-Closeness: Privacy Beyond k-Anonymity and l-Diversity. IEEE 23rd International Conference on Data Engineering (ICDE), 2007. 2. P. 106 - 115.
Sweeney, L.: Achieving k-anonymity privacy protection using generalization and suppression. J. Uncertain. Fuzz. Knowl. Sys., 2002. 10 (5). P. 571-588.
US Department of Health and Human Services. Guidance regarding methods for de-identification of protected health information in accordance with the health insurance portability and accountability act (HIPAA) privacy rule, 2014. available at:http://www.hhs.gov/.
Simson L. Garfinkel. NISTIR 8053. De-Identification of Personal Information, 2015. available at: http://dx.doi.org/10.6028/NIST.IR.8053.
Fung B., Wang ke, Wang L., Debbabi M. A framework for privacy-preserving cluster analysis. Conference: Intelligence and Security Informatics, 2008. P. 46 - 51.
Emam K., Dankar F. (2008). Protecting Privacy Using k-Anonymity. Journal of the American Medical Informatics Association : JAMIA. 2008. 15(5).
Marques, Joana & Bernardino, Jorge. Analysis of Data Anonymization Techniques. In Proceedings of the 12th International Joint Conference on Knowledge Discovery, Knowledge Engineering and Knowledge Management, 2020. P. 235-241. ISBN: 978-989-758-474-9.
Podoliaka O., Mushkatblat V., Kaplan A. Privacy Attacks Based on Correlation of Dataset Identifiers: Assessing the Risk, 2022 IEEE 12th Annual Computing and Communication Workshop and Conference (CCWC), 2022. P. 0808-0815. ISBN: 9781665483032.
Shennon К. Raboty po teorii informacii i kibernetike. Izdatel'stvo inostrannoj literatury, 1963. 830 s.
Shnajer, B. Sekrety i lozh'. Bezopasnost' dannyh v cifrovom mire. – Per. s angl. – SPb.: Piter, 2004. s. 432. ISBN: 5-318-00193-9.
Bystryj vybor sluchajnyh znachenij iz bol'shih tablic MySQL po usloviyu. available at: https://habr.com/ru/post/207096/. Available: May. 1, 2022.
Greg Robidoux. Retrieving random data from SQL Server with TABLESAMPLE. available at: https://www.mssqltips.com/sqlservertip/1308/retrieving-random-data-from-sql-server-with-tablesample/. Available: May. 1, 2022.
NOTES ON SQL. available at: https://sqlrambling.net/2018/01/24/tablesample-basic-examples. Available: May. 1, 2022.
Dankar, F., Emam, K.E., Neisa, A., Roffey, T.: Estimating the re-identification risk of clinical data sets. BMC Med. Inform. Decis. Mak, 2012. №12 (66). С. 1-15.
B.A. Malin, D. Karp, R.H. Scheuermann. Technical and policy approaches to balancing patient privacy and data sharing in clinical and translational research. J. Investig. Med., 2010. 58 (1). С. 11-18.
Li, Tiancheng & Li, Ninghui. On the tradeoff between privacy and utility in data publishing. Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2009. С. 517-526.
Fung, Benjamin & Wang, ke & Chen, Rui & Yu, Philip. Privacy-Preserving Data Publishing: A Survey of Recent Developments. ACM Comput. Surv, 2010. №4 (14). С. 1-53.
Yaseen, Saba & Abbas, Syed & Anjum, Adeel & Saba, Tanzila & Khan, Abid & Malik, Saif & Ahmad, Naveed & Shahzad, Basit & Bashir, Ali. Improved Generalization for Secure Data Publishing. IEEE Access, 2018. С. 27156-27165.
Fung, Benjamin & Wang, Ke & Fu, Ada & Yu, Philip. Introduction to Privacy-Preserving Data Publishing: Concepts and Techniques, 2010. 376 с. ISBN: 9780429138737.
Li, Ninghui & Li, Tiancheng & Venkatasubramanian, Suresh. t-Closeness: Privacy Beyond k-Anonymity and l-Diversity. IEEE 23rd International Conference on Data Engineering (ICDE), 2007. 2. С. 106 - 115.
Sweeney, L.: Achieving k-anonymity privacy protection using generalization and suppression. J. Uncertain. Fuzz. Knowl. Sys., 2002. 10 (5), С. 571-588.
US Department of Health and Human Services. Guidance regarding methods for de-identification of protected health information in accordance with the health insurance portability and accountability act (HIPAA) privacy rule, 2014. [Електронний ресурс] / Режим доступу: http://www.hhs.gov/.
Simson L. Garfinkel. NISTIR 8053. De-Identification of Personal Information, 2015. [Електронний ресурс] / Режим доступу: http://dx.doi.org/10.6028/NIST.IR.8053
Fung B., Wang ke, Wang L., Debbabi M. A framework for privacy-preserving cluster analysis. Conference: Intelligence and Security Informatics, 2008. С. 46 - 51.
Emam K., Dankar F. (2008). Protecting Privacy Using k-Anonymity. Journal of the American Medical Informatics Association : JAMIA. 2008. 15(5).
Marques, Joana & Bernardino, Jorge. Analysis of Data Anonymization Techniques. In Proceedings of the 12th International Joint Conference on Knowledge Discovery, Knowledge Engineering and Knowledge Management, 2020. С. 235-241. ISBN: 978-989-758-474-9.
Podoliaka O., Mushkatblat V., Kaplan A. Privacy Attacks Based on Correlation of Dataset Identifiers: Assessing the Risk, 2022 IEEE 12th Annual Computing and Communication Workshop and Conference (CCWC), 2022. С. 0808-0815. ISBN: 9781665483032.
Шеннон К. Работы по теории информации и кибернетике. Издательство иностранной литературы. 1963. 830 с.
Шнайер, Б. Секреты и ложь. Безопасность данных в цифровом мире. – Пер. с англ. – СПб.: Питер, 2004. с. 432. ISBN: 5-318-00193-9.
Быстрый выбор случайных значений из больших таблиц MySQL по условию. [Електронний ресурс] / Доступно: https://habr.com/ru/post/207096/ Дата звернення: Трав. 1, 2022.
Greg Robidoux. Retrieving random data from SQL Server with TABLESAMPLE. [Електронний ресурс] / Доступно: https://www.mssqltips.com/sqlservertip/1308/retrieving-random-data-from-sql-server-with-tablesample/. Дата звернення: Трав. 1, 2022.
NOTES ON SQL. [Електронний ресурс] / Доступно: https://sqlrambling/.net/2018/01/24/tablesample-basic-examples. Дата звернення: Трав. 1, 2022.