MONOCULAR DEPTH ESTIMATION USING DEEP LEARNING FOR 3D SLAM MAPPING IN AUTONOMOUS NAVIGATION

MONOCULAR DEPTH ESTIMATION USING DEEP LEARNING FOR 3D SLAM MAPPING IN AUTONOMOUS NAVIGATION. Masters thesis, King Fahd University of Petroleum and Minerals.

[img] PDF
221_COE_610___Yasser_Master_Thesis - print - With Green Cover.pdf
Restricted to Repository staff only until 1 January 2025.

Download (10MB)

Arabic Abstract

تُعد الملاحة الذاتية أحد مجالات البحث النشطة التي شهدت مؤخرًا تقدمًا تقنيًّا كبيرًا، ولها تطبيقات متنوعة في كثير من المجالات مثل الروبوتات والمركبات ذاتية القيادة والكراسي المتحركة الذكية والطائرات بدون طيار. وتتطلب تلك الأنظمة خرائط ثلاثية البعد حتى يتسنى لها التخطيط والعثور على مساراتها المثلى لتجنب الاصطدام بأي عقبات ثابتة أو متحركة تجدها على طريقها. ومن المكونات المهمة لمثل هذه الأنظمة هو ما يعرف بـ SLAM أي تحديد الموقع ورسم الخرائط الآني، وتختلف منهجيات تصميم SLAM بناءً على المستشعرات والقياسات المتاحة له. وتركز هذه الدراسة على استخدام كاميرا أحادية الرؤية لتوفير حل اقتصادي للأنظمة المتحركة الصغيرة ذات موارد معالجة محدودة. وتهدف بشكل رئيسي إلى تقدير بُعد الأجسام بدقة في بيئة غير معروفة تمامًا من صورة ملونة بكاميرا أحادية الرؤية مثبتة على الجسم المتحرك. وتقدم الدراسة طريقتين لتقدير البعد مبنيتين على التعلم العميق، ثم تقوم بدمج النتائج مع نظام SLAM أحادي الرؤية من أجل بناء خريطة سحابية نقطية لبيئة الحركة وفي نفس الوقت تحديد موقع ومسار الكاميرا المتحركة في بيئة ثلاثية البعد. وقد تم تقييم الطرق المقترحة على قاعدتين بيانات مختلفتين، وقد أظهرت النتائج دقة عالية مقارنة بالنماذج الحديثة الأخرى.

English Abstract

Autonomous navigation is one of the active research areas that has recently witnessed major technological advancements. It has a variety of application fields such as robotics, autonomous vehicles, smart wheelchairs, drones and Unmanned Aerial Vehicles (UAVs). These systems require Two Dimensional (2D) or Three Dimensional (3D) maps in order for them to plan and find their optimal paths, and to avoid colliding with any stationary or moving obstacles it finds along its way. A crucial component of such systems is the Simultaneous Localization and Mapping (SLAM). Although there are various design methodologies for SLAM based on available sensory data and measurements, in this thesis we focus on Visual Simultaneous Localization and Mapping (VSLAM) using a monocular camera to provide an economical solution for small moving agents with limited processing resources. Our main aim is to accurately estimate the depths (distances) of objects in a completely unknown environment from a single Red-Green-Blue (RGB) colored image from a monocular camera mounted on the moving agent. We proposed two Deep Learning (DL) architectures for more accurate monocular depth estimation. Then, we use it as an input for a SLAM system in order to build a 3D point cloud map of the area and simultaneously determine the location and trajectory of the moving camera in the 3D environment. The first architecture, dubbed as MonoEDDE, utilized a modified Encoder-Decoder (E-D) structure with a new loss function. The second architecture, dubbed as MonoViTDE, employed vision transformers and fused information resampled at different layers. Our experimental results show higher accuracy of our proposed models compared to contemporary state-of-the-art models for monocular depth estimation. MonoEDDE attained a validation accuracy of 0.9823, an Average Relative Error (rel) of 0.04713, an Root Mean Squared Error (RMSE) of 0.2372, and an average log10 error of 0.02031. The other model, MonoViTDE, had a validation accuracy of 0.987, an rel of 0.03944, an RMSE of 0.1994, and an average log10 error of 0.01706. We also have tested our proposed model, MonoEDDE, on an unseen sequence of images with the goal of generating a 3D point cloud map and estimating the camera trajectory within an unknown environment. Our model was able to estimate the camera trajectory with a small error (e.g. RMSE close to 0.3m). We also used transfer learning to enhance our estimated trajectory results achieving RMSE of 0.082m. Our proposed MonoEDDE model performed spectacularly in a real-time obstacle avoidance application using a drone within a dynamic environment. The system had an average latency of 0.156 seconds and a collision avoidance rate of 98.127%.

Item Type: Thesis (Masters)
Subjects: Computer
Department: College of Computing and Mathematics > Computer Engineering
Committee Advisor: Baroudi, Uthman
Committee Members: Alsuwaiyan, Ali and Luqman, Hamzah
Depositing User: YASSER EL-ALFY (g202008600)
Date Deposited: 10 Jan 2023 06:19
Last Modified: 10 Jan 2023 06:19
URI: http://eprints.kfupm.edu.sa/id/eprint/142314