Machine Learning Techniques for Geophysical Data

Machine Learning Techniques for Geophysical Data. Masters thesis, King Fahd University of Petroleum and Minerals.

[img]
Preview
PDF
Asma_Z_Yamani_g201906630.pdf

Download (64MB) | Preview

Arabic Abstract

تحمل البيانات الجيوفيزيائية عدة خصائص موروثة من البيانات المكانية. هذه الخصائص تفرض قيودًا على استخدام خوارزميات تعلم الآلة التقليدية. تتضمن هذه الخصائص التبعية المكانية وعدم التجانس المكاني واختلاف المقاييس. بسبب هذه الخصائص قد تعاني النماذج التي تم إنشاؤها باستخدام الطرق التقليدية من الإفراط في التدريب وتقييم الأداء المفرط ومشاكل التعميم. في هذه الأطروحة، نتعامل مع بعض هذه التحديات من خلال حل مشكلة التنبؤ بمدى تشبع المياه في حقول النفط. الهدف من هذه الأطروحة هو ابتكار آساليب تعالج التحديات الناتجة عن التبعية المكانية وعدم التجانس المكاني والضوضاء عند تطبيق خوارزميات تعلم الآلة والتعلم العميق على البيانات الجيوفيزيائية وتقييمها. يتم إجراء هذا التحقيق مع التأكد من أن النماذج المطورة سليمة علميًا ومجارية لمواصفات مشكلة التنبؤ بمدى تشبع المياه في حقول النفط. في هذه الأطروحة نتبع نهجين لتعلم الآلة: التعلم الاستقرائي والتعلم التحويلي. بالنسبة لنهج التعلم الاستقرائي نقترح Spatial Masking كطريقة لتقسيم البيانات إلى بيانات للتدريب وبيانات للاختبار لإجراء تقييم عادل لنماذج تعلم الآلة المطورة عند استخدام البيانات المكانية التي تحمل صفات التبعية المكانية وعدم التجانس. نقترح أيضًا استخدام الشبكة ذات الذاكرة الطويلة قصيرة المدى لإزالة الضوضاء في عملية المسح الكهرومغناطيسي المستخدم لإجراء التنبؤ بتشبع الحقل بالمياه وتستخدم أدوات التفسير لتقييم السلامة العلمية للنماذج. للتغلب على مشكلة عدم القدرة على التعميم، نقترح استخدام شبكات المخططات الالتفافية للتنبؤ بمدى تشبع المياه في حقول النفط . تم تقييم النماذج المطورة أيضآً من حيث المتانة ضد ضوضاء الغاوسية بيضاء. حصلت نماذج خوارزمية الغابة العشوائية والتي تم تقيمها باستخدام الـ Spatial Masking على معامل تحديد بقيمة ٠،٧١ وخطأ جذر تربيعي بقيمة ٠،١٩٣ لنموذج حقل النفط و لمعامل تحديد بقيمة ٠،٢٣ و خطأ جذر تربيعي بقيمة ٠،٢٥٣ لمنطقة ما بين بئري النفط. وأما بالنسبة للنموذج المطور باستخدام خوارزمية GeoGCN فقد حصل على معامل تحديد بقيمة ٠،٧٥ وخطأ جذر تربيعي بقيمة ٠،١٧٣ لنموذح حقل النفط وللمعامل تحديد بقيمة ٠،٦٠ و خطأ جذر تربيعي بقيمة ٠،١٦١ لمنطقة ما بين بئري النفط. وأثبت النماذج متانتها عند اختبارها على الخمس قواعد بيانات الاصطناعية.

English Abstract

Geophysical data have special properties that introduce limitations when applying conventional machine learning algorithms and evaluation techniques. These properties include spatial dependency, spatial heterogeneity, and scale. Due to these properties, models built using traditional methods may suffer from overfitting models, overpromising performance, and generalization issues. In this thesis, we identify prominent limitations facing machine learning adaptation in geophysical problems and propose approaches to address them. As a case study, we target the reservoir water saturation prediction problem to demonstrate our findings. This thesis aims to evaluate novel and existing approaches that address the challenges resulting from spatial dependency, spatial heterogeneity, and noise when applying machine learning and deep learning models to geophysical data. This investigation is conducted while ensuring that the developed models are scientifically sound and consistent with the interwell water saturation mapping problem specifications. In this thesis, we follow two machine learning approaches, inductive learning and transductive learning. For the inductive learning approach, we propose Spatial Masking as a train-test split method for a fair evaluation of developed machine learning models for spatial data applications that accounts for both spatial dependency and heterogeneity. We also propose using Long Short-Term Memory Network (LSTM) to denoise crosswell electromagnetic surveys. Model explainability methods are incorporated to evaluate the scientific soundness of the models. To overcome generalization issues, we propose Geophysical Graph Convolutional Neural Networks (GeoGCN) for the purpose of performing node regression prediction, and more specifically, to perform water saturation mapping in a transductive approach. We also explore GoGCN in the general problem of interpolating and extrapolating geophysical data. The proposed spatially-aware models using the inductive approach and Spatial Masking for evaluation reach an R^2 of 0.71, an RMSE of 0.193 for predicting water saturation for the Whole Region of the reservoir model box and an R^2 of 0.23, an RMSE of 0.253 for the Interwell Region. As for the proposed GeoGCN model using the transductive approach, it reaches an R^2 of 0.75, an RMSE of 0.173 for predicting water saturation for the Whole Region of the reservoir model box and an R^2 of 0.60, an RMSE of 0.161 for the Interwell Region. When tested on unseen datasets, the models showed stable performance across 5 synthetic datasets .

Item Type: Thesis (Masters)
Subjects: Computer
Petroleum
Department: College of Computing and Mathematics > Information and Computer Science
Committee Advisor: Al-Zaidy, Rabeah
Committee Members: Sheltami, Tarek and Ahmed, Adel Fadhl Noor
Depositing User: ASMA YAMANI (g201906630)
Date Deposited: 09 Jan 2022 04:47
Last Modified: 08 Feb 2024 08:42
URI: http://eprints.kfupm.edu.sa/id/eprint/142023