Метод генерації опису програмного коду з використанням моделі штучного інтелекту

  • Альбіна Костюченко "Київський політехнічний інститут імені Ігоря Сікорського", 03056, Україна, Київ, вул. Політехнічна, 14-а https://orcid.org/0009-0004-7382-7209
  • Андрій Петрашенко Національний технічний університет України "Київський політехнічний інститут імені Ігоря Сікорського", 03056, Україна, Київ, вул. Політехнічна, 14-а https://orcid.org/0000-0003-0239-1706
Ключові слова: машинне навчання, Т5, GNN, генератор опису коду, навчання моделі, обробка природної мови, документація, AST

Анотація

Актуальність. Тема є актуальною, оскільки у даний час існує багато великих проектів, які розробляються протягом тривалого періоду часу та потребують підтримки та розуміння коду без пояснень. Швидкий розвиток технологій та необхідність постійної розробки нових функцій і підтримки вже існуючих потребує постійного оновлення документації. Написання хорошої документації є цінною навичкою, що потребує досвіду, концентрації та розуміння структури проекту. Як наслідок, велика кількість розробників вважають процес написання документації важким і думають, що час, витрачений на це, можна було б використати більш продуктивно. Саме тому є попит на сервіси, які допомогають автоматизувати цей процес.

Мета. Метою даної роботи є підвищення ефективності автоматизованої генерації програмної документації. У рамках виконання даного завдання було опрацьовано необхідний теоретичний матеріал, вивчено уже існуючі рішення даної проблеми та розроблено і реалізовано власний новий метод генерування опису програмного коду, який більш точно визначав призначення фрагментів коду, чітко розумів структуру та залежності між його складовими. 

Методи дослідження. Дослідження базується на аналізі літератури, статистичних методах, а також методах машинного навчання та інтелектуального аналізу даних. Зокрема було використано методи синтаксичного аналізу коду та побудови абстрактного синтаксичного дерева (AST), метод формування навчального корпусу, методи навчання та донавчання трансформерних та графових моделей. Для оцінки переваг донавченої моделі було застосовано метод порівняльного моделювання та автоматизованої оцінки якості тексту (у даному випадку BERTScore).

Результати. Донавчання моделі T5 на спеціалізованому наборі даних із прокоментованим кодом у поєднанні з лексичним аналізом дозволило підвищити якість генерації приблизно на 4% за метрикою F1 порівняно з базовою моделлю. Це свідчить про те, що адаптація моделі до конкретної доменної задачі є ефективною та здатною суттєво покращити результат.

Висновки. На основі зібраних даних було запропоновано власний підхід покращення якості генерації опису коду з використанням донавченої моделі T5 та створеної моделі GNN з подальшою реалізацією, що і є результатом досліження. Запропонована система поєднує кращі практики синтаксичного аналізу, графового моделювання і трансформерної генерації, забезпечуючи практично застосовне рішення для автоматичного створення документації. Можна стверджувати, що поєднання «seq2seq» моделей, методів токенізації та адаптації великих трансформерів, а також аналізу коду через GNN і структурні AST-представлення забезпечує комплексний підхід до автоматизації роботи з кодом, дозволяючи поєднувати локальні й глобальні контексти, швидко адаптувати модель під специфічні задачі та ефективно генерувати змістовні коментарі та документацію. Такий інтегрований підхід має потенціал для подальшого розвитку систем штучного інтелекту у сфері автоматичного аналізу коду, підвищення продуктивності розробників та забезпечення якості програмного забезпечення. Результати дослідження можуть бути застосовані на практиці для швидкого та ефективного створення документації до розроблюваного  програмного забезпечення та великих проектів мовою  Python.

Завантаження

##plugins.generic.usageStats.noStats##

Біографії авторів

Альбіна Костюченко, "Київський політехнічний інститут імені Ігоря Сікорського", 03056, Україна, Київ, вул. Політехнічна, 14-а

магістрант кафедри системного програмування та спеціалізованих комп’ютерних систем

Андрій Петрашенко, Національний технічний університет України "Київський політехнічний інститут імені Ігоря Сікорського", 03056, Україна, Київ, вул. Політехнічна, 14-а

к.т.н., доцент кафедри системного програмування та спеціалізованих комп’ютерних систем

Посилання

/

Посилання

Опубліковано
2025-12-22
Як цитувати
Костюченко, А., & Петрашенко, А. (2025). Метод генерації опису програмного коду з використанням моделі штучного інтелекту. Вісник Харківського національного університету імені В.Н. Каразіна, серія «Математичне моделювання. Інформаційні технології. Автоматизовані системи управління», 68, 30-42. https://doi.org/10.26565/2304-6201-2025-68-03
Розділ
Статті