Відновлення тривимірних сцен на основі даних відео потоків

doi:10.26565/2519-2310-2024-1-06

Денис Грульов магістрант, Харківський національний університет імені В.Н. Каразіна, майдан Свободи, 4, Харків, 61022, Україна https://orcid.org/0009-0005-8506-770X
Анастасія Морозова доцент, доктор філософії, Харківський національний університет імені В.Н. Каразіна, майдан Свободи, 4, Харків, 61022, Україна https://orcid.org/0000-0003-2143-7992
Петро Доля доцент, доктор філософії, Харківський національний університет імені В.Н. Каразіна, майдан Свободи, 4, Харків, 61022, Україна https://orcid.org/0009-0002-4062-4443
Лілія Бєлова старший викладач, Харківський національний університет імені В.Н. Каразіна, майдан Свободи, 4, Харків, 61022, Україна https://orcid.org/0009-0007-0805-4547

DOI: https://doi.org/10.26565/2519-2310-2024-1-06

Ключові слова: відео потік, одометрія, нейронна мережа, комп’ютерний зір

Анотація

Дана робота присвячена застосуванню сучасних алгоритмів відновлення тривимірних сцен з зображень для отримання просторової інформації із відео. У роботі розглядається розмаїття сучасних методів, підходів та алгоритмів в області аналізу відео потоку. Приділено увагу послідовності розвитку підходів до вирішення задачі. У процесі дослідження області та результатів, пов’язаних з тривимірною реконструкцією на основі зображень та відео потоків, був винайдений алгоритм, що дозволяє будувати щільні мапи глибини, використовуючи інформацію з усіх кадрів відео. Ідея полягає у тому, щоб використовувати готові, загальноприйняті та перевірені рішення для вирішення двох задач: COLMAP - для візуальної одометрії, та RAFT - для обчислення оптичного потоку. Запропонований алгоритм показує досить точні результати, та відновлює мапу глибини в деталях на довільних статичних сценах.

Завантаження

##plugins.generic.usageStats.noStats##

Посилання

Deep Two-View Structure-from-Motion Revisited. URL: https://openaccess.thecvf.com/content/CVPR2021/papers/Wang_Deep_Two-View_Structure-FromMotion_Revisited_CVPR_2021_paper.pdf

Xuan Luo, Jia-Bin Huang, Richard Szeliski, Kevin Matzen, and Johannes Kopf. 2020. Consistent video depth estimation. ACM Trans. Graph. 39, 4, Article 71 (August 2020), https://doi.org/10.1145/3386569.3392377

T. Caselitz, B. Steder, M. Ruhnke and W. Burgard, "Monocular camera localization in 3D LiDAR maps," 2016 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 2016, pp. 1926-1931, DOI: https://doi.org/10.1109/IROS.2016.7759304

C. Campos, R. Elvira, J. J. G. Rodríguez, J. M. M. Montiel and J. D. Tardós, "ORB-SLAM3: An Accurate Open-Source Library for Visual, Visual–Inertial, and Multimap SLAM," in IEEE Transactions on Robotics, vol. 37, no. 6, pp. 1874-1890, Dec. 2021, https://doi.org/10.1109/TRO.2021.3075644

Teed Zachary, Lipson Lahav, Deng Jia, “Deep Patch Visual Odometry”. arXiv e-print, 2022, DOI:https://doi.org/10.48550/arXiv.2208.04726

Lahav Lipson, Zachary Teed, Jia Deng, "RAFT-Stereo: Multilevel Recurrent Field Transforms for Stereo Matching", arXiv e-print, 2021, https://doi.org/10.48550/arXiv.2109.07547

Jiankun Li, Peisen Wang, Pengfei Xiong, Tao Cai, Ziwei Yan, Lei Yang, Jiangyu Liu, Haoqiang Fan, Shuaicheng Liu, "Practical Stereo Matching via Cascaded Recurrent Network with Adaptive Correlation", arXiv e-print, 2022, https://doi.org/10.48550/arXiv.2203.11483

Richard Hartley, Andrew Zisserman, “Multiple View Geometry in Computer Vision”, 2nd Edition, Cambridge University Press, 2003.

Weirong Chen, Suryansh Kumar, Fisher Yu, "Uncertainty-Driven Dense Two-View Structure from Motion", arXiv e-print , 2023, https://doi.org/10.48550/arXiv.2302.00523

Denys Hrulov (2024) Analysis of Three-dimensional Scenes based on Video flow data (master diploma) V. N. Karazin Kharkiv National University