Self-Supervised Deep Learning For Geoscientific Image Analysis. Masters thesis, King Fahd University of Petroleum and Minerals.
![]() |
PDF (Master Thesis)
g202211300 MSc Thesis Ferreira.pdf - Accepted Version Restricted to Repository staff only until 13 March 2026. Download (10MB) |
Arabic Abstract
يدية للتعلم العميق في مجال الجيوعلم العديد من العقبات بسبب قلة توفر وجودة البيانات الموصوفة، والتي تُعتبر ضرورية لأساليب التعلم تحت الإشراف. يؤدي هذا النقص في البيانات المشروحة إلى إعاقة تطوير نماذج دقيقة وعامة للمهام مثل تصنيف الصور، وتقسيمها، وعنقدتها في التطبيقات الجيولوجية والجيوفيزيائية. لمعالجة هذه التحديات، تقترح هذه الدراسة منهجيات مبتكرة تعتمد على التعلم الذاتي الإشراف (SSL)، وهو تحول نوعي في التعلم الآلي يمكّن النماذج من تعلم تمثيلات ذات معنى من البيانات غير الموصوفة، مما يقلل من الاعتماد على مجموعات البيانات المشروحة بشكل مكثف. في هذا البحث، نقدم مقدمة شاملة عن التعلم الذاتي الإشراف في سياق الجيوعلم، مع التركيز على أهميته البالغة في المجالات التي تندر فيها مجموعات البيانات المشروحة مسبقًا. نناقش الفوائد التي يوفرها البدء بتدريب الشبكات العصبية باستخدام نماذج مدربة مسبقًا، ونستكشف إمكانية النماذج التأسيسية في تعزيز فعالية التعلم الذاتي الإشراف في مختلف المجالات، بما في ذلك التحليل البتروغرافي، والمجهرية الأحفورية، وتحليل الصور الزلزالية. تتناول الدراسة مجموعة من المهام القائمة على التعلم الذاتي الإشراف والمطبقة على البيانات الجيوعلمية، مثل التصنيف والتقسيم والعنقدة، التي تُعد ضرورية لفهم الخصائص الجوهرية وتسهيل العمليات التحليلية اللاحقة. يُركز بشكل كبير على تطبيق تقنيات التعلم الذاتي الإشراف لحل مشكلات عملية في الجيوعلم، مع إيلاء اهتمام خاص للبتروغرافيا. نستعرض التقدم الحديث في تطبيق التعلم الذاتي الإشراف على رؤية الحاسوب والجيوعلم، ونُعالج التحديات المرتبطة بتوصيف البيانات، ونستكشف كيفية استخدام التعلم الذاتي الإشراف للبيانات غير الموصوفة والمحدودة التغذية لتجاوز هذه العقبات. يشمل بحثنا تطوير وتقييم تقنيات التعلم الذاتي الإشراف مقارنة بالمعايير المعمول بها، مما يُظهر قدرتها على تحسين أداء النماذج وتقليل الاعتماد على البيانات المشروحة. تشير نتائج بحثنا إلى أننا تمكنا من تحقيق دقة تنافسية باستخدام خوارزميات التعلم الذاتي الإشراف مثل STEGO لتقسيم الصور، وDinoV2 وSimCLR لتصنيف الصور. تم تطبيق هذه الأساليب على مجموعة متنوعة من المهام، بما في ذلك تقسيم مقاطع المعادن الخام الرقيقة والأحفورات الدقيقة، بالإضافة إلى تصنيف جزيئات الرماد البركاني وصور اللثوفيسيات الأساسية. على سبيل المثال، في تجاربنا على تصنيف جزيئات الرماد البركاني، حققت DinoV2 دقة مذهلة بلغت 94.9%، متفوقة بشكل كبير على الأساليب التقليدية المعتمدة على الشبكات العصبية الالتفافية (CNN)، التي حققت 86.9%. وبالمثل، أثبت نموذج STEGO فعاليته في مهام التقسيم الدلالي، حيث حقق متوسطًا لنقاط التقاطع (IoU) بلغ 0.8، مما يشير إلى ارتباط قوي بين الأقنعة المرجعية الحقيقية وتنبؤات النموذج. علاوة على ذلك، في نهج التوليد القليل الأمثلة، كانت خرائط التقسيم للصور الأحفورية التركيبية مرضية للغاية، حيث حققت إجمالي نقطة تقاطع بلغت 84%. تُبرز هذه النتائج قدرة التعلم الذاتي الإشراف على المساهمة بشكل كبير في طرق أكثر كفاءة وأقل اعتمادًا على البيانات المشروحة لتحليل الصور الجيوعلمية. نختتم باقتراح اتجاهات بحثية مستقبلية في مجال التعلم الذاتي الإشراف، بهدف تعزيز تطبيقات رؤية الحاسوب في علوم الأرض بشكل أكبر. من خلال تعزيز تطوير تقنيات التعلم الذاتي الإشراف المصممة للتحديات الجيوعلمية، تُسهم هذه الدراسة في تطور منهجيات التعلم الآلي التي يمكنها التعامل مع التعقيدات الفريدة للبيانات الجيوعلمية، مما يعزز في نهاية المطاف قدرتنا على تفسير وتحليل الهياكل والعمليات تحت سطح الأرض
English Abstract
Traditional deep learning approaches in the geosciences are often hindered by the limited availability and quality of labeled datasets, which are crucial for supervised learning methods. This scarcity of annotated data impedes the development of accurate and generalizable models for classification, segmentation, and clustering in geological and geophysical applications. To address these challenges, this study proposes novel methodologies leveraging self-supervised learning (SSL), a paradigm shift in machine learning enabling models to learn meaningful abstractions, or representations, from unlabeled data, thereby reducing reliance on extensive annotated datasets. In this research, we provide a comprehensive introduction to self-supervised learning within the context of the geosciences, emphasizing its critical importance in fields where pre-labeled datasets are scarce. We discuss the advantages of initiating neural network training with pre-trained models and explore the viability of foundational models in enhancing the effectiveness of SSL across various domains, including petrographic, micropaleontological, and seismic image analysis. The study delves into a range of SSL tasks applicable to geoscientific data, such as classification, segmentation, and clustering, which are essential for unraveling intrinsic characteristics and facilitating downstream analytical processes. A significant focus is placed on implementing SSL techniques to solve concrete problems within geoscience, with particular emphasis on petrography. We review recent advancements in SSL as applied to computer vision and geosciences, address the challenges associated with data annotation, and investigate how SSL can effectively leverage unlabeled and sparsely labeled data to overcome these obstacles. Our research involves developing and critically evaluating SSL methods against established benchmarks, demonstrating their potential to improve model performance while reducing dependency on labeled data. We were able to achieve competitive accuracy using self-supervised algorithms such as STEGO for image segmentation and DinoV2 and SimCLR for image classification. These methods were applied to a variety of tasks, including the segmentation of ore mineral thin sections and microfossils, as well as the classification of volcanic ash particles and lithofacies core images. For instance, in our experiments with volcanic ash particle classification, DinoV2 achieved an impressive accuracy of 94.9% when using 781 images (80% of the dataset) and 91.8% when using 194 images (20% of the dataset), significantly outperforming a traditional CNN-based approach, which achieved 86.9%. Similarly, the STEGO model demonstrated its effectiveness in semantic segmentation tasks, achieving a mean IoU score of 0.8, indicating a strong correlation between the ground truth masks and the model's predictions. Furthermore, in the few-shot generative autoshot approach, the segmentation maps for synthetic foraminifera images were highly satisfactory, achieving an overall IoU score of 84%. These findings highlight SSL's ability to significantly contribute to more efficient and less label-intensive methods in geoscientific image analysis. We conclude by proposing future research directions in self-supervised learning, aiming to further advance computer vision applications in the earth sciences. By fostering the development of SSL techniques tailored to geoscientific challenges, this study contributes to the progression of machine learning methodologies that can handle the unique complexities of geoscientific data, ultimately enhancing our ability to interpret and analyze the Earth's subsurface structures and processes.
Item Type: | Thesis (Masters) |
---|---|
Subjects: | Computer Earth Sciences Research > Information Technology |
Department: | College of Petroleum Engineering and Geosciences > Geosciences |
Committee Advisor: | Koeshidayatullah, Ardiansyah |
Committee Members: | Al Armadan, Khalid and John, Cédric |
Depositing User: | IVAN FERREIRA (g202211300) |
Date Deposited: | 20 Mar 2025 09:57 |
Last Modified: | 20 Mar 2025 09:57 |
URI: | http://eprints.kfupm.edu.sa/id/eprint/143311 |