Адаптивне управління контекстом у RAG-системах для персоналізованих АІ-асистентів
Анотація
Актуальність. Розвиток систем штучного інтелекту на базі великих мовних моделей (LLM) актуалізує проблему ефективного управління контекстом діалогу, оскільки традиційні механізми збереження історії часто призводять до перевантаження контексту та зниження якості генерації відповідей. Ця проблема особливо гостро стоїть у системах Retrieval-Augmented Generation (RAG), де пам'ять діалогу поєднується з динамічним пошуком зовнішніх знань, створюючи додаткове навантаження на обмежене контекстне вікно моделі. Існуючі підходи до управління контекстом не забезпечують адаптивного механізму формування контексту діалогу, який враховує індивідуальні характеристики користувача та доменну специфіку. Мета. Розробка та апробація Adaptive Context Management System (ACMS) для персоналізованих RAG-асистентів, яка поєднує ковзне вікно останніх повідомлень, стислі резюме довготривалої історії та персоналізований пошук знань із бази даних. Методи дослідження. Розроблено мікросервісну архітектуру, що включає AI Orchestrator для координації RAG-процесу, сервіс векторного пошуку на базі PostgreSQL з розширенням pgvector та центральний компонент ACMS для управління контекстом. Запропонований підхід синтезує три стратегії: ковзне вікно для збереження останніх N повідомлень, LLM-компресію старих фрагментів історії в тематичні резюме та персоналізаційний шар для зважування релевантності на основі векторних профілів користувачів. Формування фінального контексту здійснюється через адаптивне змішування історії діалогу та релевантних знань із бази даних з урахуванням індивідуальних профілів користувачів. Результати. Експериментальне оцінювання продемонструвало суттєві переваги адаптивної системи порівняно з базовим підходом. У парних порівняннях адаптивна система виявилася кращою у 62% випадків (Answer Win-Rate = 0,62). Ключовим фактором покращень став персоналізаційний шар, який зменшує повтори та нецільовий вміст з історії діалогу, забезпечує таргетоване підсилення релевантних документів і дозволяє гнучко регулювати баланс між історією та знаннями. Висновки. Розроблена адаптивна система управління контекстом забезпечує ефективне управління контекстом діалогу в RAG-системах для персоналізованих AI-асистентів. Інтеграція стратегій компресії, адаптивного вікна та персоналізації користувача забезпечила підвищення релевантності відповідей на 14% та оптимізацію обсягу контексту на 22%. Експериментальна апробація підтвердила практичну реалізовність запропонованого підходу в різних предметних доменах, а також масштабованість системи при роботі з великими обсягами історичних даних.
Завантаження
Посилання
/Посилання
P. Lewis et al., "Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks," in Proc. NeurIPS, 2020. arXiv:2005.11401.
U. Khandelwal et al., "Generalization through Memorization: Nearest Neighbor Language Models," in Proc. ICLR, 2020. arXiv:1911.00172.
N. Liu et al., "Lost in the Middle: How Language Models Use Long Contexts," Trans. Assoc. Comput. Linguist., vol. 11, 2023. arXiv:2307.03172.
F. Xu et al., "Recomp: Improving Retrieval-Augmented LMs with Compression and Selective Augmentation," in Proc. ICLR, 2023. arXiv:2310.04408.
S. Zhang et al., "Personalized Dense Retrieval on Long-Term Dialogue History," in Proc. ACL, 2023.
P. Mazaré et al., "Training Millions of Personalized Dialogue Agents," in Proc. EMNLP, 2018. arXiv:1809.01984.
L. Zhong et al., "MemGPT: Towards LLMs as Operating Systems," arXiv:2310.08560, 2024.
"Memory Management," LangChain Documentation. [Online]. Available: https://docs.langchain.com/docs/modules/memory/. [Accessed: Nov. 18, 2025].
J. Liu, "LlamaIndex: A Data Framework for LLM Applications." [Online]. Available: https://github.com/jerryjliu/llama_index. [Accessed: Nov. 18, 2025].
S. Borgeaud et al., "Improving language models by retrieving from trillions of tokens," in Proc. ICML, 2022. arXiv:2112.04426.
K. Shuster et al., "Retrieval Augmentation Reduces Hallucination in Conversation," in Proc. EMNLP, 2021. arXiv:2104.07567.
A. Asai et al., "Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection," arXiv:2310.11511, 2023.
P. Lewis et al., "Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks," in Proc. NeurIPS, 2020. arXiv:2005.11401.
U. Khandelwal et al., "Generalization through Memorization: Nearest Neighbor Language Models," in Proc. ICLR, 2020. arXiv:1911.00172.
N. Liu et al., "Lost in the Middle: How Language Models Use Long Contexts," Trans. Assoc. Comput. Linguist., vol. 11, 2023. arXiv:2307.03172.
F. Xu et al., "Recomp: Improving Retrieval-Augmented LMs with Compression and Selective Augmentation," in Proc. ICLR, 2023. arXiv:2310.04408.
S. Zhang et al., "Personalized Dense Retrieval on Long-Term Dialogue History," in Proc. ACL, 2023.
P. Mazaré et al., "Training Millions of Personalized Dialogue Agents," in Proc. EMNLP, 2018. arXiv:1809.01984.
L. Zhong et al., "MemGPT: Towards LLMs as Operating Systems," arXiv:2310.08560, 2024.
"Memory Management," LangChain Documentation. [Online]. Available: https://docs.langchain.com/docs/modules/memory/. [Accessed: Nov. 18, 2025].
J. Liu, "LlamaIndex: A Data Framework for LLM Applications." [Online]. Available: https://github.com/jerryjliu/llama_index. [Accessed: Nov. 18, 2025].
S. Borgeaud et al., "Improving language models by retrieving from trillions of tokens," in Proc. ICML, 2022. arXiv:2112.04426.
K. Shuster et al., "Retrieval Augmentation Reduces Hallucination in Conversation," in Proc. EMNLP, 2021. arXiv:2104.07567.
A. Asai et al., "Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection," arXiv:2310.11511, 2023.