Дослідження впливу мовних інструкцій на якість роботи програмного агента в віртуальному середовищі
Анотація
Актуальність. Наразі є перспективним дослідження застосування мовних моделей в задачах прийняття рішень. Можливо застосувати попередньо навчені мовні моделі, які демонструють навички роботи з довільним текстом, вирішення логічних завдань та які здатні навчатися з текстових прикладів. Такі мовні моделі здатні вирішувати нові завдання, які представлені у текстовому вигляді.
Мета. Провести дослідження впливу різних мовних інструкцій (англ. prompt) на функціонування агента в віртуальному середовищі. Агент функціонує на основі попередньо-навченої мовної моделі.
Методи дослідження. Для виконання дослідження було використано віртуальне середовище, попередньо навчені мовні моделі, створено програмного агента на основі мовної моделі, створено набір мовних інструкцій з застосуванням таких методів як zero-shot learning, few-shot learning та інших. Ефективність функціонування агента оцінюється за допомогою таких числових величин, сумарна нагорода в середовищі, тривалість епізоду, кількість викликів мовної моделі. Проведено експерименти з навчання та тестування програмного агента у віртуальному середовищі. Зібрано чисельні та статистичні результати експериментів.
Результати. Виявлено відмінність у функціонуванні агента при застосуванні різних методів дизайну мовних інструкцій. Мовні інструкції, які містять приклади вирішення завдань, призводять до кращих результатів, ніж ті, що подають завдання в імперативній формі. Також продемонстровано покращення роботи агента при додаванні плану дій за змовчуванням. Додавання агенту пам'яті, що триває один епізод покращило результати в окремих випадках.
Висновки. В роботі було розглянуто програмного агента на основі попередньо-навченої мовної моделі, який вирішує задачу прийняття рішень в віртуальному середовищі.
Завантаження
Посилання
A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. Kaiser, and I. Polosukhin, "Attention is all you need," 2023. [Online]. Available: https://arxiv.org/abs/1706.03762
L. Wang, C. Ma, X. Feng, Z. Zhang, H. Yang, J. Zhang, Z. Chen, J. Tang, X. Chen, Y. Lin, W. X. Zhao, Z. Wei, and J. Wen, "A survey on large language model based autonomous agents," Frontiers of Computer Science, vol. 18, no. 6, Mar. 2024. [Online]. Available: http://dx.doi.org/10.1007/s11704-024-40231-1
R. S. Sutton, D. Precup, and S. Singh, "Between mdps and semi-mdps: A framework for temporal abstraction in reinforcement learning," Artificial Intelligence, vol. 112, no. 1, pp. 181--211, 1999. [Online]. Available: https://www.sciencedirect.com/science/article/pii/S0004370299000521
B. Hu, C. Zhao, P. Zhang, Z. Zhou, Y. Yang, Z. Xu, and B. Liu, "Enabling intelligent interactions between an agent and an LLM: A reinforcement learning approach," Reinforcement Learning Journal, vol. 3, pp. 1289--1305, 2024. [Online]. Available: https://rlj.cs.umass.edu/2024/papers/RLJ_RLC_2024_161.pdf
I. Dasgupta, C. Kaeser-Chen, K. Marino, A. Ahuja, S. Babayan, F. Hill, and R. Fergus, "Collaborating with language models for embodied reasoning," 2023. [Online]. Available: https://arxiv.org/abs/2302.00763
W. Huang, F. Xia, T. Xiao, H. Chan, J. Liang, P. Florence, A. Zeng, J. Tompson, I. Mordatch, Y. Chebotar, P. Sermanet, N. Brown, T. Jackson, L. Luu, S. Levine, K. Hausman, and B. Ichter, "Inner monologue: Embodied reasoning through planning with language models," 2022. [Online]. Available: https://arxiv.org/abs/2207.05608
Q. Dong, L. Li, D. Dai, C. Zheng, J. Ma, R. Li, H. Xia, J. Xu, Z. Wu, T. Liu, B. Chang, X. Sun, L. Li, and Z. Sui, "A survey on in-context learning," 2024. [Online]. Available: https://arxiv.org/abs/2301.00234
J. Schulman, F. Wolski, P. Dhariwal, A. Radford, and O. Klimov, "Proximal policy optimization algorithms," 2017. [Online]. Available: https://arxiv.org/abs/1707.06347