Enhancing the Efficiency of Multivariate Control Charts in the Presence of Missing Values Using Imputation by Machine Learning Techniques and Developing a New Self-Starting Control Chart for High Dimensional Data. Masters thesis, King Fahd University of Petroleum and Minerals.
PDF
Siaka_Jawara_KFUPM_Thesis_Final.pdf Restricted to Repository staff only until 5 August 2025. Download (3MB) |
Arabic Abstract
تهدف هذه الرسالة إلى تحقيق هدفين أساسيين. أولاً، نستخدم تقنيات التعويضأطروحة هذه تسعى لتحقيق هدفين رئيسيين. أولاً، نستخدم تقنيات التعويض بناءً على مناهج التعلم الآلي للتحقيق في تأثير البيانات المفقودة في المرحلة الأولى على أداء مخطط التحكم Hotelling \( T^2 \). تم تقييم ستة أساليب تعويض متميزة: الجار الأقرب (kNN)، التعويض المتعدد بواسطة معادلات السلسلة (MICE)، الجار الأقرب الموزون (wkNN)، اختيار الجار الأقرب الموزون (wkNNSel)، والغابة العشوائية (وهي طرق تعتمد على التعلم الآلي)، بالإضافة إلى التعويض بالمتوسط (وهو طريقة تقليدية). الدراسة تستخدم تقديرات متجه المتوسط ومصفوفة التباين والتغاير بعد معالجة القيم المفقودة لإنشاء إحصائيات مخطط Hotelling \( T^2 \). من خلال دراسة محاكاة شاملة تشمل معايير مختلفة مثل عدد خصائص الجودة $p$، الارتباط بينها $\rho$، نسبة القيم المفقودة $m$، وحجم العينة 200، نقيم فعالية هذه الأساليب في تقدير متوسط طول التشغيل في الوضع الطبيعي (ICARL). نتائج المحاكاة لدينا تظهر أن طريقة التعويض المستندة إلى MICE تتفوق على الطرق الأخرى عندما يكون معامل الارتباط 0 أو 0.7 وعدد خصائص الجودة 15 أو أقل. ومع ذلك، بالنسبة لعدد أكبر من خصائص الجودة، فإن أساليب wkNN و kNN تتفوق على الأساليب الأخرى عندما يكون معامل الارتباط 0 و 0.7، على التوالي. يركز هدفنا الثاني على تقديم مخطط تحكم ذاتي البدء جديد. هذه الاستراتيجية المبتكرة تمثل تقدماً كبيراً في مجال التحكم الإحصائي في العمليات، حيث تقدم حلاً قوياً لمراقبة وإدارة العمليات التي تتميز بعدد كبير من خصائص الجودة المرتبطة. من خلال دراسات المحاكاة، يتم إظهار فعالية وفائدة هذا النهج المبتكر عملياً، مما يبرز إمكاناته في إحداث ثورة في ممارسات إدارة الجودة عبر الصناعات المختلفة. باختصار، هذه الأطروحة لا تساهم فقط في التقدم النظري للتحكم الإحصائي في العمليات، بل تقدم أيضاً حلولاً ملموسة لمواجهة التحديات العملية التي تفرضها مجموعات البيانات المعاصرة في سيناريوهات إدارة الجودة في العالم الحقيقي.
English Abstract
This thesis sets out to accomplish two primary objectives. First, we employ imputation techniques based on machine learning approaches to investigate the impact of missing data in Phase I on the performance of Hotelling \( T^2 \) control chart. Six distinct imputation methods were evaluated: k-nearest neighbor (kNN),multiple imputation by chained equation (MICE), weighted nearest neighbor (wkNN), weighted nearest neighbor selection (wkNNSel), missforest (which are machine learning-based methods), along with mean imputation (a traditional method). The study utilize estimates of the mean vector and variance-covariance matrix after handling missing value to construct the Hotelling \( T^2 \) chart statistics. Through a comprehensive simulation study involving various parameters such as the number of quality characteristics $p$, correlation between them $\rho$, percentage of missing values $m$, and a sample size of 200, we assess the effectiveness of these methods in estimating ICARL. Our simulation results show that the MICE-based imputation method outperforms other methods when the correlation coefficient is 0 or 0.7 and the number of quality characteristics is 15 or fewer. However, for larger numbers of quality characteristics, wkNN and kNN outperform other methods when correlation coefficient is 0 and 0.7, respectively. Our second objective focuses on the introduction of a novel self-starting control chart. This innovative strategy will represents a significant advancement in the realm of statistical process control, offering a potent solution for monitoring and managing processes characterized by a multitude of correlated quality attributes. Through a simulation studies, the efficacy and practical utility of this innovative approach are demonstrated, highlighting its potential to revolutionize quality management practices across diverse industries. In essence, this thesis not only contributes to the theoretical advancement of statistical process control but also offers tangible solutions to address the practical challenges posed by contemporary datasets in real-world quality management scenarios.
Item Type: | Thesis (Masters) |
---|---|
Subjects: | Math |
Department: | College of Computing and Mathematics > Mathematics |
Committee Advisor: | Ajadi, Jimoh Olawale |
Committee Members: | Abbas, Nasir and Omar, Mohammad Hafidz |
Depositing User: | SIAKA JAWARA (g202211900) |
Date Deposited: | 06 Aug 2024 11:05 |
Last Modified: | 06 Aug 2024 11:05 |
URI: | http://eprints.kfupm.edu.sa/id/eprint/143021 |