ADVANCING DATA-DRIVEN MODELING OF GASOLINE YIELD IN FLUID CATALYTIC CRACKING: A PCA-GUIDED GROUPING STUDY ON LIGHT AND HEAVY FEEDSTOCKS. Masters thesis, King Fahd University of Petroleum and Minerals.
|
PDF
MS Thesis Corrected Final - Alelg g202303590 .pdf Restricted to Repository staff only until 25 December 2026. Download (34MB) |
Arabic Abstract
تُعدُّ وحدة التكسير التحفيزي السائل (FCC) إحدى أهم الوحدات في مصانع التكرير الحديثة، حيث تحوِّل العديد من المواد الخام والمشتقات المتنوعة إلى منتجات عالية القيمة مثل البنزين والأوليفينات الخفيفة. ومع ذلك، فإن الطبيعة غير الخطية وتعدد المتغيرات المتعلقة بعمليات التكسير تجعل التنبؤ بمؤشرات الأداء الرئيسية (مثل التحويل وعائد البنزين) تحديًا كبيرًا باستخدام النماذج التقليدية. تهدف هذه الدراسة إلى تطوير إطار متكامل يعتمد على تقنيات التعلُّم الآلي لتحسين دقة التنبؤ بالأداء باستخدام بيانات تجريبية مستخلصة من مفاعل تجريبي لوحدات النفثا والمكثفات الغازية. تشمل هذه الدراسة طرق متكاملة لمعالجة البيانات من خلال كشف النقاط البيانية الشاذة، وتوحيد وحدات القياس للمتغيرات المدروسة (Z-Score) ، واختيار السمات بناءً على مقاييس الارتباط، ثم تحليل البنية الكامنة عبر تحليل المركّبات الرئيسية (PCA) . أظهر تحليل PCA وجود سلوكيات خفية مرتبطة بنوع المواد الخام، مما قاد إلى تقسيم البيانات إلى مجموعتين منفصلتين: (نفثا ومكثفات غازية) قبل النمذجة. تم تطوير ثلاثة نماذج Gaussian Process Regression (GPR)، Boosting Trees (BT)، Robust Linear Regression (RLR) مع تحسين المعاملات باستخدام خوارزمية Bayesian Optimization . عند تدريب النماذج على مجموعة البيانات كاملة من دون أي تجزئة، تبيّن أن التنبؤ بالتحويل كان أكثر سهولة من التنبؤ بعائد البنزين. فقد أظهرت النماذج أداءً ضعيفًا أو سلبيًا في معظم الحالات؛ إذ حقّق كل من GPR وRLR قيم R² منخفضة أو سالبة، بينما قدّم BT أداءً متوسطًا وغير ثابت. تعكس هذه النتائج التباين العالي في البيانات قبل التقسيم وصعوبة نمذجتها بالإعدادات الافتراضية. كشف تحليل المركّبات الرئيسية (PCA) عن وجود بنية كامنة مرتبطة ارتباطًا وثيقًا بنوع المادة الخام، وهو ما أدى إلى تقسيم البيانات إلى مجموعات أكثر تجانسًا شملت النفثا بأنواعها ووقود التقطير الثقيل (VGO). بعد هذا التقسيم، تحسّن الأداء بشكل واضح، خصوصًا في بيانات النفثا، حيث حققت النماذج قيم R² تتراوح بين 0.95 و0.99 للتحويل، كما سجّلت GPR وBT قيم R² مرتفعة لعائد البنزين بلغت نحو 0.85–0.90. أما بيانات VGO، فكانت أكثر تحديًا بسبب سلوكها غير الخطي واتساع مدى التباين فيها، ومع ذلك حقق GPR بعد تحسين المعاملات باستخدام Bayesian Optimization أداءً قويًا، حيث وصلت قيم R² إلى 0.92 للتحويل و0.80–0.88 لعائد البنزين. في المقابل، ظل أداء RLR ضعيفًا وسجل قيم R² سالبة لعائد البنزين، مما يؤكد عدم ملاءمته لتمثيل العلاقات المعقدة في عمليات FCC. تُظهر هذه النتائج أن التجزئة المعتمدة على خوارزميات التعلّم غير الخاضع للإشراف، إلى جانب تحسين المعاملات، تسهم بشكل فعّال في تقليل الخطأ وتحسين خصوصية النماذج، كما تبرز تفوّق نموذج GPR على BT وRLR في التنبؤ بسلوك التحويل وعائد البنزين ضمن أنظمة التكسير التحفيزي الانسيابي.
English Abstract
The Fluid Catalytic Cracking (FCC) unit is the core unit of a refinery that converts a wide range of refinery feedstocks into gasoline and some light olefins. Due to the nonlinear and multivariate nature of the catalytic cracking process, predicting conversion and yield with high accuracy remains difficult. This study proposes a comprehensive machine learning framework incorporating ensemble-based anomaly detection, Z-score normalization, Principal Component Analysis (PCA), and K-means clustering to enhance predictive accuracy using experimental data generated from pilot plant testing conducted for different feedstocks and catalysts at different conditions. Three regression models were developed and optimized using Bayesian Optimization: Gaussian Process Regression (GPR), Boosting Trees (BT), and Robust Linear Regression (RLR). Initial modeling on the unsegmented dataset showed that conversion was considerably easier to predict than gasoline yield. Without Bayesian Optimization, GPR and RLR performed poorly on the full dataset, producing low or negative R² values, while BT achieved only moderate and inconsistent accuracy. These results reflected the strong heterogeneity of the combined feedstocks and highlighted the limitations of applying generalized models to the full dataset. PCA revealed clear latent structure aligned with feed type, leading to the segmentation of samples into naphtha and VGO subsets. This segmentation substantially improved model learnability by reducing chemical variability. For the naphtha subset, all models performed strongly, with cross-validated conversion R² values between 0.95 and 0.99 and gasoline-yield R² values in the 0.85–0.90 range. BO-optimized GPR achieved the highest accuracy for naphtha, reaching RMSE values as low as 0.055 for conversion. The VGO subset remained more challenging due to its stronger nonlinear behavior, yet BO-optimized GPR still achieved robust performance, with R² values up to 0.92 for conversion and between 0.80 and 0.88 for gasoline yield. BT also improved after optimization but showed reduced stability for yield prediction, while RLR continued to return weak or negative R² values, confirming its unsuitability for this feed type. Overall, segmentation based on PCA, combined with Bayesian Optimization, significantly improved predictive accuracy compared to models trained on the unsegmented dataset. GPR consistently outperformed BT and RLR across both feedstocks and both target variables, demonstrating that feed-specific modeling and optimized nonlinear methods are essential for reliable FCC performance prediction. Among all models tested, GPR demonstrated the highest generalizability and precision across targets and feed types, confirming its suitability for data-driven optimization of catalytic cracking performance.
| Item Type: | Thesis (Masters) |
|---|---|
| Subjects: | Chemistry Computer Research > Refining Petroleum > Fluid Separation and Processing |
| Department: | College of Chemicals and Materials > Chemistry |
| Committee Advisor: | Alhooshani, Khalid |
| Committee Members: | Alfarraj, Azzam and Tanimu, Abdulkadir |
| Depositing User: | KAWTHAR ALELG (g202303590) |
| Date Deposited: | 28 Dec 2025 06:32 |
| Last Modified: | 28 Dec 2025 06:32 |
| URI: | http://eprints.kfupm.edu.sa/id/eprint/143899 |