Систематичний огляд на виявлення змін робочого навантаження в розподілених базах даних

doi:10.26565/2304-6201-2025-66-05

Микита Пугач Харківський національноий університет імені В.Н. Каразіна, майдан. Свободи 4, Харків, Україна, 61022 https://orcid.org/0009-0004-8923-6489

DOI: https://doi.org/10.26565/2304-6201-2025-66-05

Ключові слова: розподілені бази даних, адаптивна підходи до проектування, ідентифікація гарячих даних, виявлення зміни робочого навантаження

Анотація

Розподілені бази даних стали важливою частиною значної частини сучасного програмного забезпечення. Вони мають численні переваги, включаючи масштабованість, відмовостійкість, високу доступність і покращену продуктивність. Це вирішує багато проблем централізованих баз даних, але також можуть мати проблеми. Одна з них – нерівномірний доступ до даних. Робоче навантаження в розподілених СУБД часто змінюється, такі коливання можуть стати причиною неефективної роботи системи. Уявіть, що доступ до одного рядка бази даних став у 10 разів частішим, або складні запити починають працювати з даними, розподіленими територіально. Така поведінка свідчить про те, що первинний розподіл даних не завжди може бути достатньо ефективним. І для вирішення цієї проблеми були винайдені технології адаптивного дизайну. У цій статті ми розглядаємо загальні кроки адаптивних технологій і зосереджуємо увагу на виявленні робочого навантаження та ідентифікації гарячих даних.

Метою статті є огляд адаптивного підходу до проектування розподілених систем керування базами даних, огляд і аналіз існуючих реалізацій та їхніх кроків, особливо виявлення зміни робочого навантаження та ідентифікації гарячих даних. Кінцева мета полягає в тому, щоб порівняти ці техніки та виявити їх основні проблеми.

У результаті цієї роботи було проаналізовано деякі існуючі підходи та виділено їх спільні сторони та відмінності, представлено їх основні проблеми.

Після перегляду всіх технологій ми можемо побачити, що поточні рішення не можуть дати точних результатів, не створюючи значних накладних витрат на систему. Крім того, немає підходу до надання актуальної інформації про гарячі дані без створення накладних витрат. Накладні витрати в таких ситуаціях є серйозною проблемою. У шаблонах нерівномірного доступу розподілені вузли можуть бути дуже зайняті обробкою запитів, а додаткові обчислення можуть призвести до більшого погіршення загальної продуктивності системи, ніж коли адаптивний підхід не використовується, або навіть до збою вузла. Таким чином, пошук рішень, які дають точні та своєчасні результати без значних накладних витрат, є великим полем для майбутніх досліджень.

Завантаження

##plugins.generic.usageStats.noStats##

Біографія автора

Микита Пугач, Харківський національноий університет імені В.Н. Каразіна, майдан. Свободи 4, Харків, Україна, 61022

Аспірант, Кафедра теоретичної та прикладної інформатики

Посилання

/

Посилання

Luminate Data, LLC, “Year-End Music Industry Report 2023,” Luminate Data, LLC, 2023. [Online]. Available: https://luminatedata.com/reports/yearend-music-industry-report-2023/. [Accessed: Nov. 27, 2024]

M. T. Özsu and P. Valduriez, Principles of Distributed Database Systems. 4th edition. Cham, Switzerland: Springer Nature, 2020.

R. Taft et al., “E-Store: Fine-grained elastic partitioning for distributed transaction processing systems”, Proceedings of the VLDB Endowment, vol. 8, no. 3, pp. 245 – 256, 2014. https://doi.org/10.14778/2735508.2735514.

M. Serafini, R. Taft, A. J. Elmore, A. Pavlo, A. Aboulnaga and M. Stonebraker, “Clay: Fine-grained adaptive partitioning for general database schemas”, Proceedings of the VLDB Endowment, vol. 10, no. 4, pp. 445 – 456, 2016. https://doi.org/10.14778/3025111.3025125.

C. Curino, E. P. C. Jones, S. Madden and H. Balakrishnan, “Workload-aware database monitoring and consolidation”, in Proceedings of the 2011 ACM SIGMOD International Conference on Management of Data. Athens, 2011, pp. 313 – 324. https://doi.org/10.1145/1989323.1989357.

A. Quamar, K. A. Kumar and A. Deshpande, “SWORD: Scalable workload-aware data placement for transactional workloads”, in Proceedings of the 16th International Conference on Extending Database Technology. Genoa, 2013, pp. 430 – 441. https://doi.org/10.1145/2452376.2452427.

C. Curino, E. Jones, Y. Zhang and S. Madden, “Schism: A workload-driven approach to database replication and partitioning”, Proceedings of the VLDB Endowment, vol. 3, no. 1-2, pp. 48 – 57, 2010. https://doi.org/10.14778/1920841.1920853.

S. Navathe, S. Ceri, G. Wiederhold and J. Dou, “Vertical partitioning algorithms for database design”, ACM Transactions on Database Systems, vol. 9, no. 4, pp. 680 – 710, 1984. https://doi.org/10.1145/1994.2209.

J. J. Levandoski, P.- Å. Larson and R. Stoica, “Identifying hot and cold data in main-memory databases” in Proceedings of the 2013 IEEE 29th International Conference on Data Engineering (ICDE). Brisbane, 2013, pp. 26 – 37. https://doi.org/10.1109/ICDE.2013.6544811.

B. Glasbergen, M. Abebe, K. Daudjee, S. Foggo and A. Pacaci, “Apollo: Learning query correlations for predictive caching in geo-distributed systems” in Proceedings of the 21st International Conference on Extending Database Technology (EDBT). Vienna, 2018, pp. 253 – 264. https://doi.org/10.5441/002/edbt.2018.23.

M. Brendle, N. Weber, M. Valiyev, N. May, R. Schulze, A. Böhm and G. Moerkotte, “SAHARA: Memory footprint reduction of cloud databases with automated table partitioning” in Proceedings of the 25th International Conference on Extending Database Technology (EDBT). Edinburgh, 2022, pp. 13 – 26. https://doi.org/10.5441/002/edbt.2022.02.