Enhancing Regression Diagnostics through Machine Learning Algorithms

Enhancing Regression Diagnostics through Machine Learning Algorithms. Masters thesis, King Fahd University of Petroleum and Minerals.

[img] PDF
ENHANCING REGRESSION DIAGNOSTICS.pdf
Restricted to Repository staff only until 19 May 2027.

Download (4MB)

Arabic Abstract

تسعى هذه الرسالة إلى تطوير منهجيات قائمة على الانحدار في مسارين متكاملين: تشخيص ملاءمة نماذج الانحدار الخطي، والمراقبة الإحصائية لملفات الانحدار عبر الزمن. في المسار الأول، تعالج الرسالة مشكلة اختبار نقص الملاءمة في البيانات الخالية من المكررات، حيث لا يكون اختبار الخطأ الخالص التقليدي قابلًا للتطبيق. ولمعالجة ذلك، تم اقتراح اختبار بديل يعتمد على توليد مكررات اصطناعية باستخدام أسلوب أقرب الجيران والبواقي المحسوبة بطريقة الاستبعاد الفردي، مع تعديل قائم على مواءمة التباين لتحسين تجانس التباين داخل المجموعات. ويقوم الاختبار المقترح على مقارنة نموذج الانحدار الخطي المقدر بنموذج أكثر مرونة قائم على متوسطات المجموعات، مع الحفاظ على بساطة التنفيذ الحسابي. وقد تم تقييم أدائه باستخدام محاكاة مونت كارلو عبر سيناريوهات شملت أبعادًا مختلفة للبيانات، ومقاييس مسافة متعددة، وأحجام جوار متنوعة، وبدائل غير خطية. وأظهرت النتائج أن اختيار عدد الجيران يمثل مفاضلة بين محلية التمثيل واستقرار التقدير. ولمعالجة ذلك، تم تطوير آلية اختيار معتمدة على البيانات، مدعومة ببعض خوارزميات التعلم الآلي، حيث أظهر نموذج شجرة القرار أداءً أكثر ثباتًا من البدائل الأخرى. وفي المسار الثاني، امتدت الرسالة إلى المراقبة الإحصائية لملفات الانحدار الخطي في المرحلة الثانية من خلال إطار قائم على الانحدار الكمي، عبر تطوير مخططات رقابية متعددة المتغيرات لرصد التغيرات في المستوى والميل والتشتت تحت توزيعات خطأ طبيعية وملتوية وثقيلة الذيول. وأظهرت نتائج المحاكاة والتطبيقات العملية أن هذه المخططات تتميز بحساسية جيدة لاكتشاف الانحرافات الصغيرة والمستمرة. وبذلك تسهم الرسالة في توسيع نطاق المنهجيات المعتمدة على الانحدار ضمن إطار يجمع بين التشخيص الإحصائي للنماذج والمراقبة المتتابعة للعمليات.

English Abstract

This thesis develops regression-based methodology along two complementary directions: lack-of-fit (LOF) assessment for linear regression models and statistical process control (SPC) for monitoring linear regression profiles over time. The first direction addresses the problem of LOF testing when the experimental design contains no true replicates, so that the classical pure-error test is not applicable. To overcome this limitation, a synthetic replicate $F$-test is proposed in which replicate-like groups are constructed from $k$-nearest neighbours and leave-one-out residuals, together with a variance-matching adjustment to improve within-group comparability. The resulting procedure reconstructs a pure-error-type decomposition and remains computationally efficient. Extensive simulation studies examine its size and power under varying dimensionality, neighbourhood sizes, distance metrics, and nonlinear alternatives, showing that neighbourhood choice governs a central trade-off between locality, calibration, and sensitivity. To support practical use, a data-driven rule for selecting $k$ is developed using machine learning algorithms, with a Decision Tree providing the most reliable recommendations under leave-one-design-out cross-validation. An application to filtration pressure and water-flux data illustrate the practical value of the proposed LOF-testing framework. The second direction extends the thesis to Phase~II SPC for linear profiles under a range of error distributions, including normal, skewed, and heavy-tailed settings. Two quantile-regression-based multivariate monitoring schemes are developed, one based on a cumulative sum memory structure and the other on an integrated hybrid memory design. Both methods use median regression coefficients and interquantile coefficient differences to monitor profile location, slope, and spread jointly, thereby providing robustness beyond classical mean-based approaches. Monte Carlo studies show that these charts are especially effective for weak and persistent profile departures, while industrial calibration examples in semiconductor metrology demonstrate earlier or more reliable detection of calibration disturbances than benchmark procedures. Taken together, the thesis broadens regression methodology in both static and sequential settings by combining machine-learning-assisted diagnostic tools with robust monitoring methods for regression-based quality analysis.

Item Type: Thesis (Masters)
Subjects: Math
Department: College of Computing and Mathematics > Mathematics
Thesis Advisor:
Nasir Abbas,
Thesis Committee Members:
Muhammad Riaz, Zaid Sawlan,
Depositing User: SALSABEEL AYOUB (g202321510)
Date Deposited: 20 May 2026 07:29
Last Modified: 20 May 2026 07:29
URI: https://eprints.kfupm.edu.sa/id/eprint/144377