Методи адаптивно динамічного програмування для визначення оптимальної стратегії регенерації печінки
Анотація
Кожен живий організм взаємодіє з навколишнім середовищем і використовує цю взаємодію для вдосконалення власних дій, щоб вижити та розвиватися. Процес еволюції показав, що види змінюють свої дії на основі взаємодії з навколишнім середовищем протягом тривалого часу, що призводить до природного відбору та виживання найбільш пристосованих. Це навчання, яке засноване на діях, або навчання з підкріпленням може охопити уявлення про оптимальну поведінку, що відбувається в природних системах. Ми описуємо математичні формулювання для навчання з підкріпленням і метод практичного впровадження, відомий як адаптивне динамічне програмування. Це дає нам уявлення про вигляд керування для штучних біологічних систем, які навчаються та демонструють оптимальну поведінку.
У даній роботі розглядається постановка задачі верхньої оцінки оптимальності, для якої оптимальна стратегія регуляції гарантовано краща чи еквівалентна об’єктивним правилам регуляції, які ми можемо спостерігати в реальних біологічних системах.
У випадку оптимальних алгоритмів навчання з підкріпленням процес навчання переміщується на вищий рівень, об’єктом інтересу якого є не деталі динаміки системи, а індекс продуктивності, який кількісно визначає, наскільки близько до оптимальності працює система керування. У такій схемі навчання з підкріпленням є засобом навчання оптимальній поведінці шляхом спостереження за реакцією оточення на неоптимальні стратегії керування.
Мета цієї статті полягає в тому, щоб показати корисність методів навчання з підкріпленням, зокрема сімейства методів, відомих як адаптивне динамічне програмування (АДП), для керування біологічними системами за допомогою зворотного зв’язку. У цій роботі викладено «он-лайн» методи вирішення задачі визначення верхньої оцінки оптимальності у постановці адаптивного динамічного програмування.
Завантаження
Посилання
E.T. Liu. Systems biology, integrative biology, predictive biology. Cell. - 2005. - Vol. 121(4). - P. 505-506. DOI: https://doi.org/10.1016/j.cell.2005.04.021
J.M. Smith. Optimization theory in evolution. Annu Rev Ecol Syst. - 1978. - Vol. 9(1). - P.31-56. DOI: https://doi.org/10.1146/annurev.es.09.110178.000335
G.A. Parker, J.M. Smith et al. Optimality theory in evolutionary biology. Nature. - 1990. - Vol. 348(6296). - P.27-33. DOI: https://doi.org/10.1038/348027a0
V. V. Karieva, S. V. Lvov. Mathematical model of liver regeneration processes: homogeneous approximation. Visnyk of V.N.Karazin Kharkiv National University. Ser. ``Mathematics, Applied Mathematics and Mechanics''. - 2018. - Vol. 87. - P. 29-41. DOI: https://doi.org/10.26565/2221-5646-2018-87-03
V. V. Karieva, S. V. Lvov, L. P. Artyukhova. Different strategies in the liver regeneration processes. Numerical experiments on the mathematical model. Visnyk of V.N.Karazin Kharkiv National University. Ser. ``Mathematics, Applied Mathematics and Mechanics''. - 2020. - Vol. 91. - P. 36-44. DOI: https://doi.org/10.26565/2221-5646-2020-91-03
J. M. Mendel, R. W. McLaren. Reinforcement-Learning Control and Pattern Recognition Systems. Mathematics in Science and Engineering. -- 1970. -- Vol. 66. -- P.~287--318. DOI: https://doi.org/10.1016/S0076-5392(08)60497-X
V. V. Karieva, S. V. Lvov. Liver regeneration after partial hepatectomy: the upper optimality estimate. Visnyk of V.N.Karazin Kharkiv National University. Ser. ``Mathematics, Applied Mathematics and Mechanics''. - 2023. - Vol. 97. - P.41-58. DOI: https://doi.org/10.26565/2221-5646-2023-97-04
R. E. Bellman. Dynamic Programming. Princeton, NJ: Princeton Univ. -- 1957. -- 392 p. ISBN: https://press.princeton.edu/books/paperback/9780691146683/dynamic-programming
R. S. Sutton, A. G. Barto. Reinforcement Learning—An Introduction. Cambridge, MA: MIT Press. -- 1998. -- 526 p. ISBN: https://www.andrew.cmu.edu/course/10-703/textbook/BartoSutton.pdf
D. P. Bertsekas, J. N. Tsitsiklis. Neuro-Dynamic Programming. MA: Athena Scientific. -- 1996. -- 512 p. DOI: https://doi.org/10.1007/978-0-387-74759-0_440
W. T. Miller III, R. S. Sutton, P. J. Werbos. Neural Networks for Control. The MIT Press. - 1995. - 544 p. ISBN: https://mitpress.mit.edu/9780262631617/neural-networks-for-control/
F. L. Lewis, D. L. Vrabie. Reinforcement learning and adaptive dynamic programming for feedback control. IEEE Circuits and Systems Magazine. - 2009. - Vol. 9(3). - P. 32-50. DOI: https://doi.org/10.1109/MCAS.2009.933854
Al-Tamimi, F. L. Lewis, M. Abu-Khalaf. Model-free Q-learning designs for linear discrete-time zero-sum games with application to H-infinity control. Automatica. - 2007. - Vol. 43. - P. 473-481. DOI: https://doi.org/10.1016/j.automatica.2006.09.019
C. J. C. H. Watkins, P. Dayan. Q-learning. Machine Learning. - 1992. - Vol. 8. - P. 279-292. DOI: https://doi.org/10.1007/BF00992698
Авторське право (c) 2024 Валерія Карієва, Сергій Львов
Цю роботу ліцензовано за Міжнародня ліцензія Creative Commons Attribution-NonCommercial-NoDerivatives 4.0.
Автори, які публікуються у цьому журналі, погоджуються з наступними умовами:
1. Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution License, котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у цьому журналі. (Attribution-Noncommercial-No Derivative Works licence).
2. Автори мають право укладати самостійні додаткові угоди щодо неексклюзивного розповсюдження роботи у тому вигляді, в якому вона була опублікована цим журналом (наприклад, розміщувати роботу в електронному сховищі установи або публікувати у складі монографії), за умови збереження посилання на першу публікацію роботи у цьому журналі.
3. Політика журналу дозволяє і заохочує розміщення авторами в мережі Інтернет (наприклад, у сховищах установ або на особистих веб-сайтах) рукопису роботи, як до подання цього рукопису до редакції, так і під час його редакційного опрацювання, оскільки це сприяє виникненню продуктивної наукової дискусії та позитивно позначається на оперативності та динаміці цитування опублікованої роботи (див. The Effect of Open Access).