Архітектура рефлексивної пам'яті для адаптивного планування ієрархічних LLM-агентів у віртуальних середовищах
Анотація
Актуальність. Великі мовні моделі (LLM) можуть бути використані як один з елементів автономних агентів, що вирішують завдання послідовного прийняття рішень. Для покращення роботи агентів потрібно зберігати історію попередніх спостережень та дій, що призводить до заповнення контекстного вікна LLM, збільшення кількості обчислень, тривалості планування та підвищує вимоги до пам'яті. Можливий підхід до вирішення цієї проблеми полягає у застосуванні методів узагальнення спостережень з використанням LLM.
Мета. Дослідити вплив методів узагальнення пам'яті автономних агентів на основі LLM та рефлексії. Порівняти з простішими методами організації пам'яті.
Методи дослідження. Методи дослідження: обчислювальний експеримент, порівняльний аналіз. Методи організації пам'яті: повна історія епізодів, рефлексія, рефлексія зі структурованим набором правил. Використані метрики якості роботи агента: успішність вирішення завдання, сумарна нагорода за епізод, кількість кроків для вирішення завдання.
Результати. Запропоновано використовувати метод узагальнення пам'яті шляхом рефлексії для ієрархічного агента на основі LLM. Розглянуто середовище Minigrid ColoredDoorKey для навчання агента. Створено код агента, зокрема для навчання агента в середовищі. Проведено обчислювальні експерименти з навчання та тестування агента з різними механізмами пам'яті. Проведено оцінку якості роботи різних механізмів пам'яті на основі метрик: точність виконання завдання, сумарна нагорода, кількість кроків до завершення епізоду. Виконано аналіз та порівняння результатів застосування механізмів пам'яті до задачі планування дій агентом в середовищі ColoredDoorKey.
Висновки. Дослідження демонструє, що застосування методу рефлексії з структурованим набором правил є доцільним в задачах планування дій автономними агентами з використанням LLM. Метод рефлексії дозволяє узагальнювати досвід агента, знаходити ефективні правила в значному об'ємі даних з розрідженим сигналом нагороди та досягати рівня ефективності порівняного з людиною-експертом.
Завантаження
Посилання
/Посилання
Zhang Z., Dai Q., Bo X. et. al. A survey on the memory mechanism of large language model-based agents. ACM Transactions on Information Systems. 2025. Vol. 43. P. С. 1—47.
Park J., O’Brien J., Cai C. et. al. «Generative agents: Interactive simulacra of human behavior». In: Proceedings of the 36th annual acm symposium on user interface software and technology. 2023, с. 1-22.
Zhu X., Chen Y., Tian H. et. al. Ghost in the Minecraft: Generally Capable Agents for Open-World Environments via Large Language Models with Text-based Knowledge and Memory. 2023. arXiv: 2305.17144 [cs.AI]. URL: https://arxiv.org/abs/2305.17144.
Zhao A., Huang D., Xu Q. et. al. «Expel: Llm agents are experiential learners». In: Proceedings of the AAAI Conference on Artificial Intelligence. Т. 38. 17. 2024, с. 19632—19642.
Zhong W., Guo L., Gao Q. et. al. «Memorybank: Enhancing large language models with long-term memory». In: Proceedings of the AAAI Conference on Artificial Intelligence. Т. 38. 17. 2024, с. 19724-19731.
Shinn N., Cassano F., Berman E. et. al. Reflexion: Language Agents with Verbal Reinforcement Learning. 2023. arXiv: 2303 . 11366 [cs.AI]. URL: https://arxiv.org/abs/2303.11366
Madaan A., Tandon N., Gupta P. та ін. Self-Refine: Iterative Refinement with Self-Feedback. 2023. arXiv: 2303.17651 [cs.CL]. URL: https://arxiv.org/abs/2303.17651 .
Zhang W., Tang K., Wu H. та ін. Agent-Pro: Learning to Evolve via Policy-Level Reflection and Optimization. 2024. arXiv: 2402.17574 [cs.AI]. URL: https://arxiv.org/abs/2402.17574 .
Packer C., Wooders S., Lin K. та ін. MemGPT: Towards LLMs as Operating Systems. 2024. arXiv: 2310.08560 [cs.AI]. URL: https://arxiv.org/abs/2310.08560 .
Xu W., Liang Z., Mei K. та ін. A-MEM: Agentic Memory for LLM Agents. 2025. arXiv: 2502.12110 [cs.CL]. URL: https://arxiv.org/abs/2502.12110.
Zhang Z., Dai Q., Bo X. et. al. A survey on the memory mechanism of large language model-based agents. ACM Transactions on Information Systems. 2025. Vol. 43. P. С. 1—47.
Park J., O’Brien J., Cai C. et. al. «Generative agents: Interactive simulacra of human behavior». In: Proceedings of the 36th annual acm symposium on user interface software and technology. 2023, с. 1-22.
Zhu X., Chen Y., Tian H. et. al. Ghost in the Minecraft: Generally Capable Agents for Open-World Environments via Large Language Models with Text-based Knowledge and Memory. 2023. arXiv: 2305.17144 [cs.AI]. URL: https://arxiv.org/abs/2305.17144.
Zhao A., Huang D., Xu Q. et. al. «Expel: Llm agents are experiential learners». In: Proceedings of the AAAI Conference on Artificial Intelligence. Т. 38. 17. 2024, с. 19632—19642.
Zhong W., Guo L., Gao Q. et. al. «Memorybank: Enhancing large language models with long-term memory». In: Proceedings of the AAAI Conference on Artificial Intelligence. Т. 38. 17. 2024, с. 19724-19731.
Shinn N., Cassano F., Berman E. et. al. Reflexion: Language Agents with Verbal Reinforcement Learning. 2023. arXiv: 2303 . 11366 [cs.AI]. URL: https://arxiv.org/abs/2303.11366
Madaan A., Tandon N., Gupta P. та ін. Self-Refine: Iterative Refinement with Self-Feedback. 2023. arXiv: 2303.17651 [cs.CL]. URL: https://arxiv.org/abs/2303.17651 .
Zhang W., Tang K., Wu H. та ін. Agent-Pro: Learning to Evolve via Policy-Level Reflection and Optimization. 2024. arXiv: 2402.17574 [cs.AI]. URL: https://arxiv.org/abs/2402.17574 .
Packer C., Wooders S., Lin K. та ін. MemGPT: Towards LLMs as Operating Systems. 2024. arXiv: 2310.08560 [cs.AI]. URL: https://arxiv.org/abs/2310.08560 .
Xu W., Liang Z., Mei K. та ін. A-MEM: Agentic Memory for LLM Agents. 2025. arXiv: 2502.12110 [cs.CL]. URL: https://arxiv.org/abs/2502.12110.