Applications of Machine Learning in Catalyst Informatics and Exploring New Hybrid Techniques of Random Projection for Dimensionality Reduction

Applications of Machine Learning in Catalyst Informatics and Exploring New Hybrid Techniques of Random Projection for Dimensionality Reduction. Masters thesis, King Fahd University of Petroleum and Minerals.

[img] PDF
Final Thesis Draft.pdf
Restricted to Repository staff only until 10 June 2025.

Download (5MB)

Arabic Abstract

البيانات عالية الأبعاد وتوضح تطبيقات التعلم الآلي في النمذجة التنبؤية. يقدم الفصل الرئيسي الأول طريقة الإسقاط العشوائي الهجين ، و التي تجمع بين نقاط قوة الإسقاط العشوائي العادي والإسقاط العشوائي الزائد والناقص مما يساعد على تحسين تقليل أبعاد البيانات مع الحفاظ على بنية البيانات. تم تقييم فعالية طريقة الإسقاط العشوائي الهجين وذلك باستخدام سيناريوهات مختلفة لمجموعات البيانات وعوامل متعددة مثل حجم العينة وأبعاد البيانات وتناثرها. يتوضح لنا أنه باستخدام مقياس التقييم (تشويه المسافة) تفوق الإسقاط العشوائي الهجين على الإسقاط العشوائي العادي والإسقاط العشوائي الزائد والناقص وذلك يجعله متقدمًا في تقنيات تقليل الأبعاد مع إمكانية التطبيق العملي لإدارة البيانات المعقدة عالية الأبعاد. يوضح الفصل الرئيسي التالي اعتماده على هيكل وبنية الإسقاط العشوائي الهجين ويقوم بتوسيع التكامل ليشمل العديد من طرق الإسقاط العشوائي المعمول بها. يظهرتفوق التقنيات المتكاملة على الطرق الفردية وذلك باستخدام مقياس التقييم. ويركز الفصل الرئيسي الثالث من الأطروحة على تطوير نموذج التعلم الآلي للتنبؤ بأداء المحفز، مع التركيز بشكل خاص على تركيب 1،3-بوتادين، وهو عنصر حاسم في إنتاج المطاط والإطارات. كما أظهرت آلة ناقل الدعم ذات وظيفة الأساس الشعاعي تفوقًا على جميع النماذج التي تم استكشافها، وتقديمها أداءً استثنائيًا في التنبؤ بتحويل ن-بيوتان و1,3-بوتادين. يركز الفصل الرئيسي الأخير من الأطروحة على استخدام التعلم الآلي للتنبؤ بإنتاجية منتج إزالة الهيدروجين وتحديد العوامل التي تؤثرعلى توزيع المنتج. استخدمت الدراسة مجموعة بيانات من التجارب التي أجريت في مفاعل ذي طبقة ثابتة و تم تقييم ثلاثة نماذج للتعلم الآلي (الشجرة المعززة، وتعزيز التدرج الشديد، وآلة ناقل الدعم). أظهرت تقنية تجميع هذه النماذج دقة استثنائية حيث كان لها الأثر الكبير على أبحاث الحفز والتطبيقات الصناعية وذلك من خلال إسهامها في تحسين المنتجات وتصميم المواد الحفازة المتقدمة، بالإضافة إلى أنها توفر أداة قوية لإدارة البيانات المعقدة عالية الأبعاد في التطبيقات العملية.

English Abstract

This thesis explores new methods of Random Projection for dimensionality reduction of high-dimensional datasets and applications of machine learning in predictive modeling. The first main chapter introduces a Hybrid Random Projection method (HRP), which combines the strengths of Normal Random Projection (NRP) and Plus-Minus One Random Projection (PMRP), improving data dimensionality reduction while preserving data structure. HRP's effectiveness is evaluated using various scenarios of datasets and factors such as sample size, data dimensions, and sparsity. The evaluation metric, distance distortion, shows that HRP consistently outperforms NRP and PMRP, making it a significant advancement in dimensionality reduction techniques with the potential for practical applications in managing complex high-dimensional data. The next main chapter builds upon the structure of HRP and extends the integration to several established Random Projection methods. The evaluation metric proved that the integrated techniques performed better than the individual methods. The third main chapter of the thesis focuses on the development of a Machine Learning model to predict catalyst performance, with a specific emphasis on the synthesis of 1,3-butadiene, a critical component in rubber and tire production. Among the models explored, the Support Vector Machine with Radial Basis Function (SVMR) demonstrates exceptional performance in predicting n-butane conversion and 1,3-butadiene selectivity. The final main chapter of the thesis focuses on using machine learning to predict dehydrogenation product (DH) yields and identify factors affecting product distribution. The study uses a dataset from experiments in a fixed-bed reactor. Three supervised machine learning models (boosted tree, extreme gradient boosting, support vector machine) were evaluated. The ensemble technique of these models showed exceptional accuracy. These findings have significant implications for catalysis research and industrial applications, offering insights into optimizing DH products and designing advanced catalysts, as well as providing a powerful tool for managing complex high-dimensional data in practical applications.

Item Type: Thesis (Masters)
Subjects: Math
Department: College of Computing and Mathematics > Mathematics
Committee Advisor: Olawale Ajadi, Jimoh
Committee Members: Riaz, Muhammad and Tanimu, Gazali
Depositing User: YUSSIF YAHAYA (g202113730)
Date Deposited: 10 Jun 2024 11:58
Last Modified: 10 Jun 2024 11:58
URI: http://eprints.kfupm.edu.sa/id/eprint/142973