Аналіз сучасних нейромережевих методів обробки візуальної інформації в системах навігації високошвидкісних ПМР
Анотація
Актуальність. Стрімка еволюція безпілотних літальних апаратів (БПЛА) — від дистанційно керованих платформ до повністю автономних високошвидкісних повітряних мобільних роботів — зумовлює підвищений запит на вдосконалені методи бортового сприйняття та навігації. Потреба в таких підходах особливо відчутна в умовах, коли обчислювальна затримка, шум сенсорів та складність навколишнього середовища підривають надійність класичних комп’ютерно-зорових систем. Попри суттєвий прогрес у сфері глибокого навчання, наявні підходи до обробки візуальної інформації — зокрема CNN-детектори, семантичні моделі на основі Transformer-архітектур та SLAM-модулі з елементами навчання — залишаються фрагментованими та недостатньо адаптованими до жорстких обмежень за розміром, вагою та енергоспоживанням (SWaP), властивих вбудованим платформам на кшталт NVIDIA Jetson. Це актуалізує потребу в системному огляді сучасних нейроархітектур, придатних для роботи в режимі реального часу на високошвидкісних ПМР.
Мета. Метою дослідження є аналіз сучасних нейронних методів вторинної обробки візуальної інформації в навігаційних системах ПМР, порівняння сфер застосування Convolutional Neural Networks (CNNs) і Vision Transformers (ViTs), оцінювання їх інтеграції у SLAM-підсистеми та визначення вимог до гібридних архітектур, здатних забезпечити повністю автономний високошвидкісний політ.
Методи. У роботі використано порівняльний аналіз сучасних підходів глибокого навчання, включаючи CNN-детектори сімейства YOLO, візуальні моделі на основі Transformer-архітектур, SLAM-компоненти з нейронними модулями та методи управління на основі Deep Reinforcement Learning (DRL). Оцінювання здійснювалося за критеріями затримки, семантичної стійкості, роботи в динамічних сценах, сумісності з вбудованим обладнанням, ефективності квантування, потенціалу структурного проріджування та продуктивності оптимізації TensorRT на пристроях NVIDIA Jetson.
Результати. Дослідження встановило, що CNN-архітектури забезпечують найкращу продуктивність у режимі реального часу та залишаються незамінними для високочастотного рефлекторного сприйняття, тоді як Vision Transformers демонструють кращу здатність до глобального контекстного аналізу й стійкість до оклюзій, але зазнають значних обчислювальних витрат на вбудованих GPU. Нейронно підсилені SLAM-методи покращують стабільність ознак та відсіювання динамічних об’єктів, проте вимагають ретельної інтеграції для збереження роботи в реальному часі. Аналіз апаратної реалізації показав, що квантування, структурне проріджування та оптимізація TensorRT є критично важливими для розгортання глибоких моделей на платформах Jetson, хоча ViT-архітектури демонструють обмежену толерантність до INT8-квантування. На основі отриманих результатів сформульовано концепцію гібридної архітектури, що поєднує рефлекторну швидкодію CNN-модулів із когнітивними можливостями моделей Transformer-типу.
Висновки. Результати дослідження підтверджують необхідність розроблення гібридних нейроархітектур, які інтегрують швидкодію та апаратну ефективність CNN-мереж із семантичною глибиною Transformer-моделей. Такі системи становлять перспективний напрям розвитку надійної, повністю автономної високошвидкісної навігації ПМР. Запропоновані принципи акцентують на ієрархічному управлінні, асинхронних контурах сприйняття та апаратно орієнтованій оптимізації як ключових чинниках для створення ПМР нового покоління.
Завантаження
Посилання
/Посилання
Sheng, Y., Liu, H., Li, J., & Han, Q. (2024). UAV autonomous navigation based on deep reinforcement learning in highly dynamic and high-density environments. Drones, 8(9), 516. https://doi.org/10.3390/drones8090516
Scherbinin, V. V., Khusainov, N. S., & Kravchenko, P. P. (2014). Combined correlation-extremal navigation system to identify AV location by terrain relief and landscape objects with the use of the stereo photogrammetry method. Middle-East Journal of Scientific Research, 19(4), 479–486. https://doi.org/10.5829/idosi.mejsr.2014.19.4.13693
Mukhina, M. P., & Seden, I. V. (2014). Analysis of modern correlation extreme navigation systems. Electronics and Control Systems, 1(39), 95–101. https://doi.org/10.18372/1990-5548.39.7343
Sotnikov, A., Tiurina, V., Petrov, K., Lukyanova, V., Lanovyy, O., Onishchenko, Y., Gnusov, Y., Petrov, S., Boichenko, O., & Breus, P. (2024). Using the set of informative features of a binding object to construct a decision function by the system of technical vision when localizing mobile robots. Eastern-European Journal of Enterprise Technologies, 3(9(129)), 60–69. https://doi.org/10.15587/1729-4061.2024.303989
Seeed Studio. (2023, March 30). YOLOv8 performance benchmarks on NVIDIA Jetson devices. Seeed Studio Blog. https://www.seeedstudio.com/blog/2023/03/30/yolov8-performance-benchmarks-on-nvidia-jetson-devices/
D. Du et al. (2019). VisDrone-DET2019: The vision meets drone object detection in image challenge results. In Proceedings of the IEEE/CVF International Conference on Computer Vision Workshops (ICCVW 2019) (pp. 213-226). IEEE. https://doi.org/10.1109/ICCVW.2019.00030
Zhang, J. (2023). Towards a high-performance object detector: Insights from drone detection using ViT and CNN-based deep learning models. In Proceedings of the 2023 IEEE International Conference on Sensors, Electronics and Computer Engineering (ICSECE) (pp. 141–147). IEEE. https://doi.org/10.1109/ICSECE58870.2023.10263514
Liu, T., Wang, Y., Yang, C., Zhang, Y., & Zhang, W. (2025). A lightweight hybrid CNN-ViT network for weed recognition in paddy fields. Mathematics, 13(17), 2899. https://doi.org/10.3390/math13172899
Shen, S., Yu, G., Zhang, L., Yan, Y., & Zhai, Z. (2025). LandNet: Combine CNN and Transformer to Learn Absolute Camera Pose for the Fixed-Wing Aircraft Approach and Landing. Remote Sensing, 17(4), 653. https://doi.org/10.3390/rs17040653
Xue, H., Tang, Z., Xia, Y., Wang, L., & Li, L. (2025). HCTD: A CNN-transformer hybrid for precise object detection in UAV aerial imagery. Computer Vision and Image Understanding, 259, 104409. https://doi.org/10.1016/j.cviu.2025.104409
Favorskaya, M. N. (2023). Deep learning for visual SLAM: The state-of-the-art and future trends. Electronics, 12(9), 2006. https://doi.org/10.3390/electronics12092006
Luo, L., Peng, F., & Dong, L. (2024). Improved multi-sensor fusion dynamic odometry based on neural networks. Sensors, 24(19), 6193. https://doi.org/10.3390/s24196193
Zhu, P., Wen, L., Du, D., Bian, X., Hu, Q., Ling, H., & et al. (2022). Detection and Tracking Meet Drones Challenge. IEEE Transactions on Pattern Analysis and Machine Intelligence, 44(11), 7380–7399. https://doi.org/10.1109/TPAMI.2021.3119563
Mohiuddin, M.B., Boiko, I., Tran, V.P. et al. Reinforcement learning for end-to-end UAV slung-load navigation and obstacle avoidance. Sci Rep 15, 34621 (2025). https://doi.org/10.1038/s41598-025-18220-6
Meimetis, D., Daramouskas, I., Patrinopoulou, N., Lappas, V., & Kostopoulos, V. (2025). Comparative analysis of object detection models for edge devices in UAV swarms. Machines, 13(8), 684. https://doi.org/10.3390/machines13080684
Sheng, Y., Liu, H., Li, J., & Han, Q. (2024). UAV autonomous navigation based on deep reinforcement learning in highly dynamic and high-density environments. Drones, 8(9), 516. https://doi.org/10.3390/drones8090516
Scherbinin, V. V., Khusainov, N. S., & Kravchenko, P. P. (2014). Combined correlation-extremal navigation system to identify AV location by terrain relief and landscape objects with the use of the stereo photogrammetry method. Middle-East Journal of Scientific Research, 19(4), 479–486. https://doi.org/10.5829/idosi.mejsr.2014.19.4.13693
Mukhina, M. P., & Seden, I. V. (2014). Analysis of modern correlation extreme navigation systems. Electronics and Control Systems, 1(39), 95–101. https://doi.org/10.18372/1990-5548.39.7343
Sotnikov, A., Tiurina, V., Petrov, K., Lukyanova, V., Lanovyy, O., Onishchenko, Y., Gnusov, Y., Petrov, S., Boichenko, O., & Breus, P. (2024). Using the set of informative features of a binding object to construct a decision function by the system of technical vision when localizing mobile robots. Eastern-European Journal of Enterprise Technologies, 3(9(129)), 60–69. https://doi.org/10.15587/1729-4061.2024.303989
Seeed Studio. (2023, March 30). YOLOv8 performance benchmarks on NVIDIA Jetson devices. Seeed Studio Blog. https://www.seeedstudio.com/blog/2023/03/30/yolov8-performance-benchmarks-on-nvidia-jetson-devices/
D. Du et al. (2019). VisDrone-DET2019: The vision meets drone object detection in image challenge results. In Proceedings of the IEEE/CVF International Conference on Computer Vision Workshops (ICCVW 2019) (pp. 213-226). IEEE. https://doi.org/10.1109/ICCVW.2019.00030
Zhang, J. (2023). Towards a high-performance object detector: Insights from drone detection using ViT and CNN-based deep learning models. In Proceedings of the 2023 IEEE International Conference on Sensors, Electronics and Computer Engineering (ICSECE) (pp. 141–147). IEEE. https://doi.org/10.1109/ICSECE58870.2023.10263514
Liu, T., Wang, Y., Yang, C., Zhang, Y., & Zhang, W. (2025). A lightweight hybrid CNN-ViT network for weed recognition in paddy fields. Mathematics, 13(17), 2899. https://doi.org/10.3390/math13172899
Shen, S., Yu, G., Zhang, L., Yan, Y., & Zhai, Z. (2025). LandNet: Combine CNN and Transformer to Learn Absolute Camera Pose for the Fixed-Wing Aircraft Approach and Landing. Remote Sensing, 17(4), 653. https://doi.org/10.3390/rs17040653
Xue, H., Tang, Z., Xia, Y., Wang, L., & Li, L. (2025). HCTD: A CNN-transformer hybrid for precise object detection in UAV aerial imagery. Computer Vision and Image Understanding, 259, 104409. https://doi.org/10.1016/j.cviu.2025.104409
Favorskaya, M. N. (2023). Deep learning for visual SLAM: The state-of-the-art and future trends. Electronics, 12(9), 2006. https://doi.org/10.3390/electronics12092006
Luo, L., Peng, F., & Dong, L. (2024). Improved multi-sensor fusion dynamic odometry based on neural networks. Sensors, 24(19), 6193. https://doi.org/10.3390/s24196193
Zhu, P., Wen, L., Du, D., Bian, X., Hu, Q., Ling, H., & et al. (2022). Detection and Tracking Meet Drones Challenge. IEEE Transactions on Pattern Analysis and Machine Intelligence, 44(11), 7380–7399. https://doi.org/10.1109/TPAMI.2021.3119563
Mohiuddin, M.B., Boiko, I., Tran, V.P. et al. Reinforcement learning for end-to-end UAV slung-load navigation and obstacle avoidance. Sci Rep 15, 34621 (2025). https://doi.org/10.1038/s41598-025-18220-6
Meimetis, D., Daramouskas, I., Patrinopoulou, N., Lappas, V., & Kostopoulos, V. (2025). Comparative analysis of object detection models for edge devices in UAV swarms. Machines, 13(8), 684. https://doi.org/10.3390/machines13080684