RISK FACTOR PREDICTION AND SURVIVAL ANALYSIS FOR CHRONIC DISEASE RECURRENCE USING MACHINE LEARNING MODELS. Masters thesis, King Fahd University of Petroleum and Minerals.
![]() |
PDF
Maha thesis.pdf Restricted to Repository staff only until 23 May 2026. Download (3MB) |
Arabic Abstract
أكثر أنواع (CRC) تُشكل الأمراض المزمنة عبئًا صحيًا عامًا كبيرًا في المملكة العربية السعودية، ويُعد سرطان القولون والمستقيم السرطان شيوعًا بين الرجال، وثالث أكثرها شيوعًا بين النساء. تقدم هذه الرسالة منهجًا قائمًا على البيانات للتنبؤ بمخرجات الإصاب ة بسرطان القولون والمستقيم من خلال نمذجة ثلاث نتائج سريرية ذات أهمية: حالة السرطان، وتكرار المرض، والحالة الحيوية )البقاء/الوفاة(. بالاعتماد على بيانات سريرية من أحد المستشفيات، استكشفت الدراسة النماذج الإحصائية التقليدية، مثل نموذج الغابات العشوائي ة ،SVM) كوكس لتحليل البقاء والانحدار اللوجستي، إلى جانب تقنيات التعلم الآلي المتقدمة مثل آلات الدعم لبناء نماذج تنبؤية دقيقة وقابلة ، (ANN) والشبكات العصبية الاصطناعية ، (XGBoost) التحسين التدرجي المتطر ف ،(RF) للتفسير. تم استخدام الإحصاءات الوصفية لوصف خصائص المرضى، وتقييم أداء النماذج من خلال التحقق المتقاطع ومؤشرات الأداء مثل والحساسية، والنوعية، والقيم التنبؤية. أُجري اختيار المتغيرات في كل من النماذج التقليدية ، ROC (AUC) المساحة تحت منحنى ونماذج التعلم الآل ي—باستخدام الاختيار التدريجي في النماذج التقليدية، والإزالة التراجعية ضمن إطار التحقق المتقاطع المتداخل أفضل أداء من حيث ANN و XGBoost في نماذج التعلم الآلي—وذلك لتعزيز كفاءة النماذج وقابليتها للتفسير. أظهرت نماذ ج في التنبؤ بتكرار XGBoost التوازن والموثوقية في التنبؤ بحالة السرطان والبقاء، في حين برزت نماذج الغابات العشوائية و المرض. كما أكدت نماذج الانحدار اللوجستي ونموذج كوكس أهمية موقع الورم، ومرحلة المرض، وتورط العقد اللمفاوية، وتدخلات العلاج )مثل الجراحة، والعلاج الكيميائي، والعلاج المناعي( عبر جميع المخرجات المدروس ة. وتناولت الدراسة أيضًا، في فصل مستقل، تأثير تحولات السياسات الوطنية لمكافحة السرطان على معدلات انتشار سرطان القولون والمستقيم، ونسبة الإصابات والوفيات الناجمة عنه في المملكة العربية السعودية خلال العقود الثلاثة الماضية. تم استخدام بيانات للفترة من 1990 إلى 2021 ، وتطبيق نماذج الانحدار السالب الثنائي ومخططات (GBD العبء العالمي للأمراض ( 2021 للكشف عن التغيرات في اتجاهات الإصابة المرتبطة بتغيّرات السياسات. Hotelling T² الرقابة الإحصائية القائمة على إحصائية وقد تم رصد انحرافات ذات دلالة إحصائية في عامي 1995 و 2021 ، تزامنت مع إنشاء السجل السعودي للسرطان، وتوسيع برامج الفحص المبكر لسرطان القولون والمستقيم، على التوالي. ورغم أن الفحص أدى إلى زيادة في معدلات الكشف، إلا أن الاتجاهات المرتبطة بالوفيات أظهرت تحسنًا محدودًا، مما يسلط الضوء على وجود فجوات في فعالية العلاج والحاجة إلى تحسين الرعاية والمتابعة. وتتمثل الإسهامات الأساسية لهذه الرسالة في تطوير إطار نمذجة متعدد المخرجات، يُقدّم رؤى تتجاوز التنبؤ بنتيجة واحدة فقط. ومن خلال الربط بين التحليل السريري وتقييم الصحة العامة، تهدف هذه الدراسة إلى تعزيز تصنيف المخاطر، ودعم الرعاية الصحية الشخصية، وإثراء جهود مكافحة السرطان الوطنية، مما يسهم في تحسين إدارة سرطان القولون والمستقيم في المملكة العربية السعودية .
English Abstract
Chronic diseases pose a significant public health burden in the Kingdom of Saudi Arabia (KSA), with colorectal cancer (CRC) being the most commonly diagnosed cancer among men and the third among women. This thesis introduces a data-driven approach to CRC outcome prediction by modeling three clinically relevant endpoints: cancer status, recurrence and vital status. Using hospital-based clinical data, this study explores traditional statistical models, namely Cox proportional hazards regression and Logistic Regression, and advanced machine learning techniques, such as support vector machines, random forests, Extreme Gradient Boosting and Artificial Neural Networks, to develop accurate and interpretable predictive models. Descriptive statistics are used to profile patient characteristics, while model performance is evaluated using cross-validation and metrics including AUC, sensitivity, specificity, and predictive values. Feature selection was performed in both traditional and machine learning models—using stepwise selection in traditional methods and backward elimination within nested cross-validation for machine learning models—to enhance model efficiency and interpretability. Among the machine learning models, XGBoost and ANN showed the most balanced and robust performance in predicting cancer status and survival, while Random Forest and XGBoost demonstrated strong utility for recurrence prediction. Logistic and Cox models confirmed the importance of tumor site, stage, lymph node involvement, and treatment interventions (surgery, chemotherapy, immunotherapy) across all outcomes. A separate chapter examines the impact of transitions in national cancer control policies on CRC prevalence, incidence, and mortality in KSA over the past three decades. This component uses Global Burden of Disease 2021 data (1990–2021), applying negative xiv binomial regression and Hotelling’s T²-based control charts to detect shifts in cancer trends associated with policy changes. Significant trend deviations were detected in 1995 and 2021, corresponding with the launch of the Saudi Cancer Registry and the expansion of CRC screening programs. While screening led to increased detection, mortality trends showed limited improvement, highlighting gaps in treatment effectiveness and the need for strengthened follow-up care. The study’s primary contribution lies in its multi-outcome modeling framework, offering insights that extend beyond single-endpoint prediction. By bridging clinical analytics with public health evaluation, this research aims to enhance risk stratification, support personalized care, and inform national cancer control efforts, ultimately contributing to improved CRC management in KSA.
Item Type: | Thesis (Masters) |
---|---|
Subjects: | Math |
Department: | College of Computing and Mathematics > Mathematics |
Committee Advisor: | sanusi, ridwan |
Committee Members: | omar, mohamed and almohanna, hani |
Depositing User: | MAHA SAID (g202303030) |
Date Deposited: | 25 May 2025 07:36 |
Last Modified: | 25 May 2025 07:36 |
URI: | http://eprints.kfupm.edu.sa/id/eprint/143423 |