MACHINE LEARNING MODEL FOR PREDICTING SHIFTS IN GAS CHROMATOGRAPHY RETENTION TIMES CAUSED BY THE CHANGE OF EXPERIMENT’S PARAMETERS AND CONDITIONS

MACHINE LEARNING MODEL FOR PREDICTING SHIFTS IN GAS CHROMATOGRAPHY RETENTION TIMES CAUSED BY THE CHANGE OF EXPERIMENT’S PARAMETERS AND CONDITIONS. Masters thesis, King Fahd University of Petroleum and Minerals.

[img] PDF
Final_Thesis.pdf
Restricted to Repository staff only until 29 May 2026.

Download (2MB)

Arabic Abstract

الكروماتوغرافيا الغازية (GC) هي تقنية فصل متعددة الاستخدامات تُستخدم على نطاق واسع في العديد من التطبيقات التي تتطلب توصيف العيّنة وتحديد مكوناتها. ومع ذلك، لا يمكن إجراء التوصيف عبر GC بشكل مباشر ما لم ترتبط بتقنيات أخرى (مثل مطيافية الكتلة) أو تُستخدم طرق مرجعية مثل مؤشرات الاحتفاظ. يوفر هذا العمل سير عمل متينًا يعتمد على التعلم الآلي لتمكين التنبؤ الدقيق بأزمنة الاحتفاظ، مما يسهل عملية التوصيف ويسمح بتحسين ظروف GC لفصل الأيزومرات. تمّ تدريب ست خوارزميات مختلفة على 70% من أصل 608 نقطة بيانات جُمعت يدويًا من كروماتوغرامات شركة RESTEK والأدبيات المنشورة، شملت 73 إعدادًا مختلفًا لـ GC و61 مركبًا من الهيدروكربونات تتراوح من C1 إلى C12. وقد تفوّق النموذج المختار، وهو الانحدار بدعم المتجهات المعزز تكيفيًا (Adaptive Boosting SVR)، على الأساليب التجميعية المعتمدة على الأشجار وأظهر دقّة عالية واتساقًا ممتازًا عبر مجموعات التحقق والاختبار، حيث بلغ معامل التحديد R² ما بين 0.992 و0.99.

English Abstract

Gas Chromatography (GC) is a versatile separation technique that is widely used in many applications that require sample characterization and determination of constituents. However, GC characterization is not directly possible unless it is coupled with other techniques (e.g., mass spectroscopy) or referencing methods, such as retention indices, are used. This work provides a solid machine learning workflow that allows for accurate retention time predictions, which will facilitate the characterization process and allow GC optimization for isomers separation. Six different algorithms were trained on 0.7 of the manually compiled 608 data points that were gathered from RESTEK company chromatograms and published literature, covering 73 different GC settings and 61 compounds ranging from C1 to C12 hydrocarbons. The chosen model, namely the Adaptive Boosting Support Vector Regression, outperformed tree-based ensemble methods and showed high accuracies and consistency across the validation and testing sets with R^2 score of 0.992 -0.993.

Item Type: Thesis (Masters)
Subjects: Chemistry
Computer
Chemical Engineering
Department: College of Chemicals and Materials > Materials Science and Engineering
Committee Advisor: Alsayoud, Abduljabar
Committee Members: Alsayoud, Abduljabar and Alkhater, Mohammed and Drmosh, Qasem
Depositing User: HUSSEIN ALADWAN (g202304250)
Date Deposited: 29 May 2025 12:23
Last Modified: 29 May 2025 12:23
URI: http://eprints.kfupm.edu.sa/id/eprint/143506