Дослідження впливу мовних інструкцій на якість роботи програмного агента в віртуальному середовищі

  • Омельченко Ігор Харківський національний університет ім. В.Н. Каразіна. Площа Незалежності, 4, Харків, Харківська область, 61022 https://orcid.org/0009-0007-4474-4916
  • Володимир Струков Харківський національний університет ім. В.Н. Каразіна. Площа Незалежності, 4, Харків, Харківська область, 61022 http://orcid.org/0000-0003-4722-3159
Ключові слова: машинне навчання, глибоке навчання, штучна нейронна мережа, мовна модель, промпт, прийняття рішень, навчання з підкріпленням, PPO, агент, віртуальне середовище, minigrid

Анотація

Актуальність. Наразі є перспективним дослідження застосування мовних моделей в задачах прийняття рішень. Можливо застосувати попередньо навчені мовні моделі, які демонструють навички роботи з довільним текстом, вирішення логічних завдань та які здатні навчатися з текстових прикладів. Такі мовні моделі здатні вирішувати нові завдання, які представлені у текстовому вигляді.

Мета. Провести дослідження впливу різних мовних інструкцій (англ. prompt) на функціонування агента в віртуальному середовищі. Агент функціонує на основі попередньо-навченої мовної моделі.

Методи дослідження. Для виконання дослідження було використано віртуальне середовище, попередньо навчені мовні моделі, створено програмного агента на основі мовної моделі, створено набір мовних інструкцій з застосуванням таких методів як zero-shot learning, few-shot learning та інших. Ефективність функціонування агента оцінюється за допомогою таких числових величин, сумарна нагорода в середовищі, тривалість епізоду, кількість викликів мовної моделі. Проведено експерименти з навчання та тестування програмного агента у віртуальному середовищі. Зібрано чисельні та статистичні результати експериментів.

Результати. Виявлено відмінність у функціонуванні агента при застосуванні різних методів дизайну мовних інструкцій. Мовні інструкції, які містять приклади вирішення завдань, призводять до кращих результатів, ніж ті, що подають завдання в імперативній формі. Також продемонстровано покращення роботи агента при додаванні плану дій за змовчуванням. Додавання агенту пам'яті, що триває один епізод покращило результати в окремих випадках.

Висновки. В роботі було розглянуто програмного агента на основі попередньо-навченої мовної моделі, який вирішує задачу прийняття рішень в віртуальному середовищі.

Завантаження

##plugins.generic.usageStats.noStats##

Біографії авторів

Омельченко Ігор, Харківський національний університет ім. В.Н. Каразіна. Площа Незалежності, 4, Харків, Харківська область, 61022

Аспірант, кафедра математичного моделювання та аналізу даних

Володимир Струков, Харківський національний університет ім. В.Н. Каразіна. Площа Незалежності, 4, Харків, Харківська область, 61022

к.т.н., доцент; завідувач кафедри математичного моделювання та аналізу даних

Посилання

A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. Kaiser, and I. Polosukhin, "Attention is all you need," 2023. [Online]. Available: https://arxiv.org/abs/1706.03762

L. Wang, C. Ma, X. Feng, Z. Zhang, H. Yang, J. Zhang, Z. Chen, J. Tang, X. Chen, Y. Lin, W. X. Zhao, Z. Wei, and J. Wen, "A survey on large language model based autonomous agents," Frontiers of Computer Science, vol. 18, no. 6, Mar. 2024. [Online]. Available: http://dx.doi.org/10.1007/s11704-024-40231-1

R. S. Sutton, D. Precup, and S. Singh, "Between mdps and semi-mdps: A framework for temporal abstraction in reinforcement learning," Artificial Intelligence, vol. 112, no. 1, pp. 181--211, 1999. [Online]. Available: https://www.sciencedirect.com/science/article/pii/S0004370299000521

B. Hu, C. Zhao, P. Zhang, Z. Zhou, Y. Yang, Z. Xu, and B. Liu, "Enabling intelligent interactions between an agent and an LLM: A reinforcement learning approach," Reinforcement Learning Journal, vol. 3, pp. 1289--1305, 2024. [Online]. Available: https://rlj.cs.umass.edu/2024/papers/RLJ_RLC_2024_161.pdf

I. Dasgupta, C. Kaeser-Chen, K. Marino, A. Ahuja, S. Babayan, F. Hill, and R. Fergus, "Collaborating with language models for embodied reasoning," 2023. [Online]. Available: https://arxiv.org/abs/2302.00763

W. Huang, F. Xia, T. Xiao, H. Chan, J. Liang, P. Florence, A. Zeng, J. Tompson, I. Mordatch, Y. Chebotar, P. Sermanet, N. Brown, T. Jackson, L. Luu, S. Levine, K. Hausman, and B. Ichter, "Inner monologue: Embodied reasoning through planning with language models," 2022. [Online]. Available: https://arxiv.org/abs/2207.05608

Q. Dong, L. Li, D. Dai, C. Zheng, J. Ma, R. Li, H. Xia, J. Xu, Z. Wu, T. Liu, B. Chang, X. Sun, L. Li, and Z. Sui, "A survey on in-context learning," 2024. [Online]. Available: https://arxiv.org/abs/2301.00234

J. Schulman, F. Wolski, P. Dhariwal, A. Radford, and O. Klimov, "Proximal policy optimization algorithms," 2017. [Online]. Available: https://arxiv.org/abs/1707.06347

Опубліковано
2025-04-25
Як цитувати
Ігор, О., & Струков, В. (2025). Дослідження впливу мовних інструкцій на якість роботи програмного агента в віртуальному середовищі. Вісник Харківського національного університету імені В.Н. Каразіна, серія «Математичне моделювання. Інформаційні технології. Автоматизовані системи управління», 65, 83-91. https://doi.org/10.26565/2304-6201-2025-65-07
Розділ
Статті