Архітектура рефлексивної пам'яті для адаптивного планування ієрархічних LLM-агентів у віртуальних середовищах

  • Ігор Омельченко Харківський національний університет ім. В.Н. Каразіна. Площа Незалежності, 4, Харків, Харківська область, 61022 https://orcid.org/0009-0007-4474-4916
  • Володимир Струков Харківський національний університет ім. В.Н. Каразіна. Площа Незалежності, 4, Харків, Харківська область, 61022 http://orcid.org/0000-0003-4722-3159
Ключові слова: штучний інтелект, машинне навчання, глибоке навчання, штучні нейронні мережі, інтелектуальні інформаційні системи, автоматизовані інформаційні системи, обробка природної мови, велика мовна модель, промпт, прийняття рішень, агент, пам’ять, віртуальне середовище, Minigrid

Анотація

Актуальність. Великі мовні моделі (LLM) можуть бути використані як один з елементів автономних агентів, що вирішують завдання послідовного прийняття рішень. Для покращення роботи агентів потрібно зберігати історію попередніх спостережень та дій, що призводить до заповнення контекстного вікна LLM, збільшення кількості обчислень, тривалості планування та підвищує вимоги до пам'яті. Можливий підхід до вирішення цієї проблеми полягає у застосуванні методів узагальнення спостережень з використанням LLM.

Мета. Дослідити вплив методів узагальнення пам'яті автономних агентів на основі LLM та рефлексії. Порівняти з простішими методами організації пам'яті.

Методи дослідження. Методи дослідження: обчислювальний експеримент, порівняльний аналіз. Методи організації пам'яті: повна історія епізодів, рефлексія, рефлексія зі структурованим набором правил. Використані метрики якості роботи агента: успішність вирішення завдання, сумарна нагорода за епізод, кількість кроків для вирішення завдання.

Результати. Запропоновано використовувати метод узагальнення пам'яті шляхом рефлексії для ієрархічного агента на основі LLM. Розглянуто середовище Minigrid ColoredDoorKey для навчання агента. Створено код агента, зокрема для навчання агента в середовищі. Проведено обчислювальні експерименти з навчання та тестування агента з різними механізмами пам'яті. Проведено оцінку якості роботи різних механізмів пам'яті на основі метрик: точність виконання завдання, сумарна нагорода, кількість кроків до завершення епізоду. Виконано аналіз та порівняння результатів застосування механізмів пам'яті до задачі планування дій агентом в середовищі ColoredDoorKey.

Висновки. Дослідження демонструє, що застосування методу рефлексії з структурованим набором правил є доцільним в задачах планування дій автономними агентами з використанням LLM. Метод рефлексії дозволяє узагальнювати досвід агента, знаходити ефективні правила в значному об'ємі даних з розрідженим сигналом нагороди та досягати рівня ефективності порівняного з людиною-експертом.

Завантаження

##plugins.generic.usageStats.noStats##

Біографії авторів

Ігор Омельченко, Харківський національний університет ім. В.Н. Каразіна. Площа Незалежності, 4, Харків, Харківська область, 61022

Аспірант, кафедра математичного моделювання та аналізу даних

Володимир Струков, Харківський національний університет ім. В.Н. Каразіна. Площа Незалежності, 4, Харків, Харківська область, 61022

к.т.н., доцент; завідувач кафедри математичного моделювання та аналізу даних

Посилання

/

Посилання

Опубліковано
2025-12-22
Як цитувати
Омельченко, І., & Струков, В. (2025). Архітектура рефлексивної пам’яті для адаптивного планування ієрархічних LLM-агентів у віртуальних середовищах. Вісник Харківського національного університету імені В.Н. Каразіна, серія «Математичне моделювання. Інформаційні технології. Автоматизовані системи управління», 68, 62-69. https://doi.org/10.26565/2304-6201-2025-68-06
Розділ
Статті