Методи адаптивно динамічного програмування для визначення оптимальної стратегії регенерації печінки

  • Валерія Карієва Харківський національний університет імені В. Н. Каразіна, майдан Свободи 4, Харків, 61022, Україна https://orcid.org/0000-0003-2121-5214
  • Сергій Львов Харківський національний університет імені В. Н. Каразіна, майдан Свободи 4, Харків, 61022, Україна http://orcid.org/0000-0003-4055-7172
Ключові слова: динамічне програмування, оптимальне керування, навчання з підкріпленням

Анотація

Кожен живий організм взаємодіє з навколишнім середовищем і використовує цю взаємодію для вдосконалення власних дій, щоб вижити та розвиватися. Процес еволюції показав, що види змінюють свої дії на основі взаємодії з навколишнім середовищем протягом тривалого часу, що призводить до природного відбору та виживання найбільш пристосованих. Це навчання, яке засноване на діях, або навчання з підкріпленням може охопити уявлення про оптимальну поведінку, що відбувається в природних системах. Ми описуємо математичні формулювання для навчання з підкріпленням і метод практичного впровадження, відомий як адаптивне динамічне програмування. Це дає нам уявлення про вигляд керування для штучних біологічних систем, які навчаються та демонструють оптимальну поведінку.

У даній роботі розглядається постановка задачі верхньої оцінки оптимальності, для якої оптимальна стратегія регуляції гарантовано краща чи еквівалентна об’єктивним правилам регуляції, які ми можемо спостерігати в реальних біологічних системах.

У випадку оптимальних алгоритмів навчання з підкріпленням процес навчання переміщується на вищий рівень, об’єктом інтересу якого є не деталі динаміки системи, а індекс продуктивності, який кількісно визначає, наскільки близько до оптимальності працює система керування. У такій схемі навчання з підкріпленням є засобом навчання оптимальній поведінці шляхом спостереження за реакцією оточення на неоптимальні стратегії керування.

Мета цієї статті полягає в тому, щоб показати корисність методів навчання з підкріпленням, зокрема сімейства методів, відомих як адаптивне динамічне програмування (АДП), для керування біологічними системами за допомогою зворотного зв’язку. У цій роботі викладено «он-лайн» методи вирішення задачі визначення верхньої оцінки оптимальності у постановці адаптивного динамічного програмування.

Завантаження

##plugins.generic.usageStats.noStats##

Посилання

E.T. Liu. Systems biology, integrative biology, predictive biology. Cell. - 2005. - Vol. 121(4). - P. 505-506. DOI: https://doi.org/10.1016/j.cell.2005.04.021

J.M. Smith. Optimization theory in evolution. Annu Rev Ecol Syst. - 1978. - Vol. 9(1). - P.31-56. DOI: https://doi.org/10.1146/annurev.es.09.110178.000335

G.A. Parker, J.M. Smith et al. Optimality theory in evolutionary biology. Nature. - 1990. - Vol. 348(6296). - P.27-33. DOI: https://doi.org/10.1038/348027a0

V. V. Karieva, S. V. Lvov. Mathematical model of liver regeneration processes: homogeneous approximation. Visnyk of V.N.Karazin Kharkiv National University. Ser. ``Mathematics, Applied Mathematics and Mechanics''. - 2018. - Vol. 87. - P. 29-41. DOI: https://doi.org/10.26565/2221-5646-2018-87-03

V. V. Karieva, S. V. Lvov, L. P. Artyukhova. Different strategies in the liver regeneration processes. Numerical experiments on the mathematical model. Visnyk of V.N.Karazin Kharkiv National University. Ser. ``Mathematics, Applied Mathematics and Mechanics''. - 2020. - Vol. 91. - P. 36-44. DOI: https://doi.org/10.26565/2221-5646-2020-91-03

J. M. Mendel, R. W. McLaren. Reinforcement-Learning Control and Pattern Recognition Systems. Mathematics in Science and Engineering. -- 1970. -- Vol. 66. -- P.~287--318. DOI: https://doi.org/10.1016/S0076-5392(08)60497-X

V. V. Karieva, S. V. Lvov. Liver regeneration after partial hepatectomy: the upper optimality estimate. Visnyk of V.N.Karazin Kharkiv National University. Ser. ``Mathematics, Applied Mathematics and Mechanics''. - 2023. - Vol. 97. - P.41-58. DOI: https://doi.org/10.26565/2221-5646-2023-97-04

R. E. Bellman. Dynamic Programming. Princeton, NJ: Princeton Univ. -- 1957. -- 392 p. ISBN: https://press.princeton.edu/books/paperback/9780691146683/dynamic-programming

R. S. Sutton, A. G. Barto. Reinforcement Learning—An Introduction. Cambridge, MA: MIT Press. -- 1998. -- 526 p. ISBN: https://www.andrew.cmu.edu/course/10-703/textbook/BartoSutton.pdf

D. P. Bertsekas, J. N. Tsitsiklis. Neuro-Dynamic Programming. MA: Athena Scientific. -- 1996. -- 512 p. DOI: https://doi.org/10.1007/978-0-387-74759-0_440

W. T. Miller III, R. S. Sutton, P. J. Werbos. Neural Networks for Control. The MIT Press. - 1995. - 544 p. ISBN: https://mitpress.mit.edu/9780262631617/neural-networks-for-control/

F. L. Lewis, D. L. Vrabie. Reinforcement learning and adaptive dynamic programming for feedback control. IEEE Circuits and Systems Magazine. - 2009. - Vol. 9(3). - P. 32-50. DOI: https://doi.org/10.1109/MCAS.2009.933854

Al-Tamimi, F. L. Lewis, M. Abu-Khalaf. Model-free Q-learning designs for linear discrete-time zero-sum games with application to H-infinity control. Automatica. - 2007. - Vol. 43. - P. 473-481. DOI: https://doi.org/10.1016/j.automatica.2006.09.019

C. J. C. H. Watkins, P. Dayan. Q-learning. Machine Learning. - 1992. - Vol. 8. - P. 279-292. DOI: https://doi.org/10.1007/BF00992698

Опубліковано
2024-06-10
Цитовано
Як цитувати
Карієва, В., & Львов, С. (2024). Методи адаптивно динамічного програмування для визначення оптимальної стратегії регенерації печінки. Вісник Харківського національного університету імені В. Н. Каразіна. Серія «Maтeмaтикa, приклaднa мaтeмaтикa i механiка», 99, 22-35. https://doi.org/10.26565/2221-5646-2024-99-02
Розділ
Статті