GENERALIZABLE AND SELECTIVE 2D/3D DEEP-MODEL FOR MULTI-VIEW OBJECT CLASSIFICATION

GENERALIZABLE AND SELECTIVE 2D/3D DEEP-MODEL FOR MULTI-VIEW OBJECT CLASSIFICATION. PhD thesis, King Fahd University of Petroleum and Minerals.

[img] PDF
PhD_Dissertation_Mona_Alzahrani.pdf
Restricted to Repository staff only until 30 December 2025.

Download (26MB)

Arabic Abstract

غالبًا ما يعتمد التعرف على الكائنات بواسطة الإنسان على المعلومات المرئية من وجهات نظر أو رؤى/صور متعددة للكائن، بينما يعتمد التعرف على الكائنات بواسطة الآلة عادةً على صورة واحدة للكائن. ومع ذلك، قد لا توفر الصورة الواحدة بيانات كافية لاتخاذ القرار بدقة، خاصة في مهام التعرف المعقدة. وقد أظهرت التمثيلات ثلاثية الأبعاد متعددة الرؤى Multi-view 3D representations إمكانية تحقيق أداء متطور للتعرف على الكائنات. لكن الطرق الحالية لتصنيف الكائنات ثلاثية الأبعاد القائمة على الرؤى المتعددة view-based 3D object classification لها قيود. حيث أن استخدام جميع الرؤى الملتقطة من الكائن لاداء التصنيف يمكن أن يؤدي إلى إرباك المصنف، مما يؤدي إلى نتائج مضللة لبعض فئات الكائنات. بينما قد تحمل بعض الرؤى معلومات أكثر تمييزًا للتصنيف. هذه الملاحظات تدفع الاحتياج إلى نماذج تصنيف انتقائية/اختياريه متعددة الرؤى وأكثر ذكاءً. وبناءً على ذلك، فإن في هذه الدراسة يتم تقديم نموذج انتقائي متعدد الرؤى يدعى SelectiveMV لاختيار أكثر الرؤى/الصور تأثيرًا على التصنيف من خلال اسناد درجات أهمية باستخدام طريقة cosine similarityو باستخدام تقنيات التظليل لعرض الرؤى/الصور، وشبكة BEiT-B مدربة مسبقًا لاستخراج الميزات، وشبكة FCN كمصنف. تم تقييم الطريقة المقترحة على مجموعات بيانات ModelNet10 وModelNet40 لتصنيف الكائنات ثلاثية الأبعاد. النتائج كشفت أن نموذجنا يحقق دقة إجمالية تبلغ88.90 و15.90 و82.91 على بيانات ModelNet40 الصعبة، ويحقق دقة إجمالية تبلغ 41.91 و52.91 و18.92 على بيانات ModelNet10 مع 1 و3 و6 صور مختارة على التوالي. بالإضافة إلى ذلك، من خلال إجراء التجارب على مجموعة بيانات MIRO في العالم الحقيقي، حقق النموذج دقة بنسبة 67.91 من خلال صورة واحدة فقط. علاوة على ذلك، قد قمنا بسد الفجوة في تصنيف الكائنات ثلاثية الأبعاد القائمة على الرؤى المتعددة من خلال التحقيق في العوامل التي تؤثر على فعالية التصنيف من خلال إطار تجريبي واسع النطاق. تشمل العوامل التي تم التحقيق منها: فعالية الشبكات الأساسية backbone networks المختلفة القائمة على CNN وTransformer، وأنواع الميزات التي تم الحصول عليها من تقنيات العرض rendering techniques، والعدد الأمثل للرؤى/للصور view counts، واستراتيجيات الاندماج fusion strategies. شمل هذا الإطار مجموعة متنوعة من الكائنات ثلاثية الأبعاد المأخوذة من مجموعات بيانات ModelNet. بعد ذلك، بناءً على تحليل النتائج، تم تحديد العوامل المثلى لنموذج SelectiveMV، مما أظهر أداءً فعالاً ودقة عالية حتى مع رؤى/صور محدودة. وعلاوة على ذلك، هذا العمل يستعرض بشكل شامل التطورات الأخيرة في التعرف على الكائنات ثلاثية الأبعاد باستخدام تقنيات التعلم العميق لمهمة تصنيف الكائنات ثلاثية الأبعاد. وتقوم بالتعمق في تفاصيل النماذج الحالية، والمجموعات البيانية، وإعدادات الكاميرا، واختيار الرؤى/الصور، والهياكل المدربة مسبقًا، واستراتيجيات الدمج، وأداء التصنيف. وتُختتم بالأفكار الرئيسية والاتجاهات المستقبلية لتعزيز طرق التعرف على الكائنات ثلاثية الأبعاد القائمة على الرؤى المتعددة.

English Abstract

Human-based object recognition often relies on visual information from multiple perspectives or views of the object, while machine-based object recognition typically depends on a single image of the object. However, a single image may not offer enough data for precise decision-making, especially in complex recognition tasks. Multi-view 3D representations have demonstrated potential in achieving state-of-the-art performance for object recognition. Yet, current view-based 3D object classification methods have limitations. Using all captured views for classification can confuse the classifier, yielding misleading results for some classes. Certain views may carry more discriminative information for classification. These observations drive the need for smarter selective multi-view classification models. Hence, in this work, SelectiveMV is introduced to select the most influential views by assigning importance scores using the cosine similarity method, employing shading techniques for view rendering, a pre-trained BEiT-B network for feature extraction, and a FCN as the classifier. Results reveal that our model achieves an overall accuracy of 90.88%, 90.15%, and 91.82% on the challenging ModelNet40 dataset, and overall accuracy of 91.41%, 91.52%, and 92.18% on the ModelNet10 dataset using only 1, 3, and 6 selected views, respectively. Furthermore, experimenting on the real-world MIRO dataset, the model achieved 91.67% accuracy with only a single view. Even more, we bridge the gap in view-based 3D object classification by investigating the factors that influence the classification performance through an extensive experimental framework. The investigated factors include the different CNN-based and Transformer-based backbone networks, feature types from rendering techniques, optimal view counts, and fusion strategies. This framework encompassed a diverse array of 3D objects sourced from the ModelNet datasets. Subsequently, the analysis of the results, the optimal parameters for the SelectiveMV model were established, showcasing efficient performance and high accuracy even with limited views. Moreover, this work extensively reviews recent advancements in deep learning-based multi-view 3D object recognition for 3D classification tasks. Delving into details of existing models, datasets, camera setups, view selection, pre-trained architectures, fusion strategies, and classification performance. Concluding with key insights and future directions for enhancing multi-view 3D object recognition methods.

Item Type: Thesis (PhD)
Subjects: Computer
Department: College of Computing and Mathematics > Information and Computer Science
Committee Advisor: EL-Basuny, Tarek
Committee Co-Advisor: Usman, Muhammad
Committee Members: Alshayeb, Mohamed and Ahmed, Moataz and Mahmood, Sajjad
Depositing User: MONA ALZAHRANI (g201908310)
Date Deposited: 31 Dec 2024 08:13
Last Modified: 31 Dec 2024 08:13
URI: http://eprints.kfupm.edu.sa/id/eprint/143197