Machine Learning Applications in Predictive Modeling and Missing Data Imputation: Insights from Breast Cancer and Malaria Studies.

Machine Learning Applications in Predictive Modeling and Missing Data Imputation: Insights from Breast Cancer and Malaria Studies. Masters thesis, King Fahd University of Petroleum and Minerals.

[img] PDF
FINAL THESIS - OUSMAN KHAN.pdf
Restricted to Repository staff only until 26 December 2024.

Download (4MB)

Arabic Abstract

قوم هذه الأطروحة بإجراء استكشاف شامل لتطبيقات التعلم الآلي، بما يشمل النمذجة التنبؤية وتقنيات استكمال البيانات المفقودة المبتكرة. تتناول الفصول الرئيسية الخمسة توقعات عودة سرطان الثدي وتوقعات انتشار الملاريا وتوقعات حالات الملاريا واستكمال القيم المفقودة في مجموعات البيانات المختلطة ذات الأبعاد العالية. في دراسات سرطان الثدي، يعزز نماذج متنوعة، بما في ذلك الانحدار اللوجستي متعدد المتغيرات ونماذج كوكس متعددة المتغيرات وتقنيات التعلم الآلي المختلفة، التوقعات المتكررة. يتم تحديد المحددات الرئيسية، بما في ذلك العلاج الكيميائي والجراحة والعمر وحجم الورم، كعوامل حاسمة. في دراسات الملاريا، يتم استخدام نماذج التعلم الآلي، مع دمج المتغيرات المناخية وغير المناخية. يبرز نموذج الغابة العشوائية بشكل خاص، مما يظهر وعودًا استثنائية لتوقعات انتشار المبعوثات والحوادث. قمنا بمقارنة ثلاث تقنيات لاستكمال البيانات المفقودة لأنواع البيانات المختلطة بتطبيق تحليل العوامل للبيانات المختلطة (FAMD) لتقليل الأبعاد. تؤكد هذه الأطروحة على ضرورة الاعتماد على نهج متعدد التخصصات لمعالجة التحديات الصحية العالمية، من خلال دمج الخبرة السريرية مع تقنيات قوية قائمة على البيانات. نظرًا للطبيعة الحرجة لسرطان الثدي والملاريا، فإن النماذج التوقعية الدقيقة ضرورية. إن وجود البيانات المفقودة يؤكد أيضًا أهمية استخدام تقنيات استكمال البيانات القوية. تقدم هذه الأطروحة نظرات قيمة في مجالات الرعاية الصحية وتحليل البيانات، مما يوفر أساسًا قويًا للتقدم في تطوير النمذجة التوقعية واستكمال البيانات المفقودة

English Abstract

This thesis conducts a comprehensive exploration of machine learning applications, encompassing predictive modelling and innovative missing data imputation techniques. Five main chapters collectively address breast cancer recurrence prediction, malaria outbreak forecasting, malaria case prediction, and the imputation of missing values in high-dimensional mixed-data sets. In the breast cancer studies, diverse models, including multivariate logistic regression, multivariable Cox models, and various machine learning techniques, enhance recurrence prediction. Key determinants, including chemotherapy, surgery, age, and tumour size, are identified as pivotal factors. For the malaria studies, machine learning models are employed, integrating both climatic and non-climatic variables. The Random Forest model particularly stands out, demonstrating exceptional promise for outbreak and incidence prediction. In addition, We compare three missing data imputation techniques for mixed data type by first applying Factor Analysis of Mixed Data (FAMD) for dimensionality reduction. This thesis underscores the necessity for a multidisciplinary approach to address global health challenges, merging clinical expertise with cutting-edge data-driven techniques. Given the critical nature of breast cancer and malaria, precise predictive models are imperative. The presence of missing data further underscores the importance of employing robust imputation techniques. This thesis offers valuable insights to the fields of healthcare and data analysis, providing a solid foundation for further advancements in predictive modelling and missing data imputation.

Item Type: Thesis (Masters)
Subjects: Computer
Math
Department: College of Computing and Mathematics > Mathematics
Committee Advisor: Ajadi, Jimoh Olawale
Committee Members: Afuecheta, Emmanuel Osita and Omar, Mohammad Hafidz and Almohanna, Hani Mohammed
Depositing User: OUSMAN KHAN (g202101330)
Date Deposited: 28 Dec 2023 05:57
Last Modified: 28 Dec 2023 05:57
URI: http://eprints.kfupm.edu.sa/id/eprint/142682