Оцінка впливу наявності фотореалістичної текстури при генерації синтетичного датасету на точність моделей комп’ютерного зору

doi:10.26565/2304-6201-2026-69-04

Владислав Коршенко Харківський національний університет імені В.Н. Каразіна, майдан Свободи, 4, Харків-22, Україна, 61022 https://orcid.org/0000-0003-2197-072X
Дмитро Узлов Харківський національний університет імені В.Н. Каразіна, майдан Свободи, 4, Харків-22, Україна, 61022 https://orcid.org/0000-0003-3308-424X

DOI: https://doi.org/10.26565/2304-6201-2026-69-04

Ключові слова: синтетичні дані, комп'ютерний зір, детектування об'єктів, розрив між доменами, робастність моделей, стійкість до зсуву домену

Анотація

Актуальність. Сучасний розвиток комп’ютерного зору стикається з проблемою високої вартості та трудомісткості збору реальних анотованих даних. Використання синтетичних даних, згенерованих у графічних рушіях, є ефективною альтернативою, проте головною перешкодою залишається «розрив між доменами» (domain gap), що знижує точність моделей на реальних зображеннях.

Метою роботи є кількісна оцінка впливу фотореалістичної текстури цільового об’єкта на ефективність детектування моделями YOLO при переході від симуляції до реальності (Sim2Real).

Методологія дослідження базується на проведенні контрольованого експерименту в середовищі Unity, де було згенеровано два ідентичні синтетичні датасети, що відрізнялися лише типом текстури 3D-моделі: високодеталізованою фотореалістичною («Textured») та монохромною білою («White»). Навчання моделей проводилося на базі архітектури YOLOv11s із застосуванням стратегії переносу навчання (transfer learning) та двоетапного процесу тонкого налаштування. Валідація результатів здійснювалася на незалежному наборі виключно реальних фотографій.

Результати. Обидві моделі, що були навчені на двох датасетах («Textured» і «White»), досягли майже ідентичної точності на синтетичних валідаційних даних (mAP@0.5 ≈ 0.995). Однак на реальних фотографіях модель «Textured» продемонструвала в 11.6 разів вищий mAP@0.5, порівняно з результатом моделі «White». Показник повноти (recall) для текстурованої моделі виявився в 10.3 рази вищим, ніж у моделі, що покладалася лише на геометричну форму.

Висновки. Фотореалістична текстура є критично важливим чинником для успішного Sim2Real перенесення. Вона забезпечує формування в ранніх шарах нейронної мережі універсальних низькорівневих ознак, які є необхідними для розпізнавання об’єктів у реальному середовищі. Якісне текстурування 3D-асетів слід розглядати як стратегічний пріоритет, а не допоміжний етап візуалізації.

Завантаження

##plugins.generic.usageStats.noStats##

Біографії авторів

Владислав Коршенко, Харківський національний університет імені В.Н. Каразіна, майдан Свободи, 4, Харків-22, Україна, 61022

Аспірант кафедри Кафедри кібербезпеки інформаційних систем, мереж і технологій, старший викладач кафедри математичного моделювання та аналізу даних

Дмитро Узлов, Харківський національний університет імені В.Н. Каразіна, майдан Свободи, 4, Харків-22, Україна, 61022

Кандидат технічних наук, Директор ННІ КН та ШІ

Посилання

Man, K.; Chahl, J. A Review of Synthetic Image Data and Its Use in Computer Vision. J. Imaging 2022, 8, 310.

Mumuni, A.; Mumuni, F. A Survey of Synthetic Data Augmentation Methods in Computer Vision. arXiv preprint arXiv:2403.10075, 2024.

Tobin, J., Fong, R., Ray, A., Schneider, J., Zaremba, W., & Abbeel, P. (2017). Domain Randomization for Transferring Deep Neural Networks from Simulation to the Real World. In 2017 IEEE/RSJ 2. International Conference on Intelligent Robots and Systems (IROS) (pp. 23-30).

Jackson, D., Gokhale, V., & Wyatt, J. L. (2019). Quantifying the Use of Domain Randomization for Object Localization. arXiv preprint arXiv:1910.03438.

Csurka, G. (2017). Domain Adaptation for Visual Applications: A Comprehensive Survey. arXiv preprint arXiv:1702.05374.

Wang, M., & Deng, W. (2018). Deep Visual Domain Adaptation: A Survey. Neurocomputing, 312, 135-153.

Hinterstoisser, S., Pauly, O., Heibel, H., Marek, M., & Bokeloh, M. (2019). An Annotation Saved is an Annotation Earned: Using Fully Synthetic Training for Object Instance Detection. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV) (pp. 9779-9789).

Yosinski, J., Clune, J., Bengio, Y., & Lipson, H. (2014). How transferable are features in deep neural networks?. Advances in neural information processing systems, 27.

Borkman, S., et al. (2021). Unity Perception: Generate Synthetic Data for Computer Vision. arXiv preprint arXiv:2107.04259.

Redmon, J., Divvala, S., Girshick, R., & Farhadi, A. (2016). You only look once: Unified, real-time object detection. In Proceedings of the IEEE conference on computer vision and pattern recognition (CVPR) (pp. 779-788).

Koirala, A., et al. (2021). Crossing the Reality Gap: A Survey on Sim-to-Real Transferability of Robot Controllers in Reinforcement Learning. Journal of Intelligent & Robotic Systems, 103(4), 67.

Truong, J., Chernova, S., & Batra, D. (2021). Bi-directional Domain Adaptation for Sim2Real Transfer of Embodied Navigation Agents. IEEE Robotics and Automation Letters (RA-L), 6(2), 2634–2641.

Kadian, A., Chhabra, T., Gupta, K., & Kumar, S. (2023). A Survey of Sim-to-Real Methods in RL: Progress, Prospects, and Challenges with Foundation Models. arXiv preprint arXiv:2302.09337.

Hashemifar, S., et al. (2024). Recent Advances in Deep Learning for Protein-Protein Interaction: A Review. International Journal of Molecular Sciences, 25(11), 5949.

Awais, M., et al. (2023). Don't freeze: Finetune encoders for better Self-Supervised HAR. In Proceedings of the 2023 ACM International Symposium on Wearable Computers.

Finlayson, G. D., et al. (2023). Impact of Exposure and Illumination on Texture Classification Based on Raw Spectral Filter Array Images. Sensors, 23(12), 5649.

Chung, E., et al. (2023). Inclusive Portrait Lighting Estimation Model Leveraging Graphic-Based Synthetic Data. In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision.

Nikolenko, S. I. (2021). Synthetic Data for Deep Learning. Springer Nature.

Picard, R. W. (2021). The Reproducibility Crisis in ML/AI: An Overview. IEEE Open Journal of Signal Processing, 2, 407–414.

Kingma, D. P., & Ba, J. (2014). Adam: A Method for Stochastic Optimization. arXiv preprint arXiv:1412.6980.

Zheng, Z., Wang, P., Liu, W., Li, J., Ye, R., & Ren, J. (2020). Distance-IoU Loss: Faster and Better Learning for Bounding Box Regression. In Proceedings of the AAAI Conference on Artificial Intelligence, 34(07), 12993-13000.

Loshchilov, I., & Hutter, F. (2016). SGDR: Stochastic Gradient Descent with Warm Restarts. arXiv preprint arXiv:1608.03983.

Goyal, P., Dollár, P., Girshick, R., Noordhuis, P., Wesolowski, L., Kyrola, A., ... & He, K. (2017). Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour. arXiv preprint arXiv:1706.02677.

Uzlov, D., Strukov, V., Hudilin, V., & Vlasov, O. (2023). Problematic issues of machine learning technology in law enforcement. Computer Science and Cybersecurity, 2, 6-15. URL:https://doi.org/10.26565/2519-2310-2023-2-01