FORECASTING CARDIOVASCULAR DISEASES OF ADULT PATIENTS IN EMERGENCY DEPARTMENT USING AI MODELS. Masters thesis, King Fahd University of Petroleum and Minerals.
![]() |
PDF (Master's Thesis)
CVD_ED Main Draft Printing.pdf Restricted to Repository staff only until 14 May 2026. Download (2MB) |
Arabic Abstract
الخلفية: لا يزال تأثير أمراض القلب والأوعية الدموية على اقتصاد المملكة العربية السعودية ومعدل وفيات السعوديين يُظهر اتجاهات مثيرة للقلق. في عام 2016، قُدِّر تأثير أمراض القلب والأوعية الدموية على اقتصاد المملكة العربية السعودية بنحو 3.5 مليار دولار أمريكي، ومن المتوقع أن يرتفع إلى 9.8 مليار دولار أمريكي في عام 2035. وقد أفادت التقارير أن أمراض القلب والأوعية الدموية تُمثل ما يقرب من 28% من جميع الوفيات الناجمة عن الأمراض غير المعدية الرئيسية في المملكة العربية السعودية، مما ينتج عنه عبء اقتصادي مباشر وغير مباشر يبلغ حوالي 52 مليار ريال سعودي وفقًا لوزارة الصحة. علاوة على ذلك، فإن أكثر من 30% من البالغين في المملكة العربية السعودية معرضون لخطر الإصابة بأمراض القلب والأوعية الدموية. وفي ضوء ذلك، هناك حاجة إلى المشاركة في العمل الأكاديمي لإيجاد تقنيات أفضل في التعامل مع حالات أمراض القلب والأوعية الدموية، وخاصة في قسم الطوارئ في أنظمة الصحة (ED) حيث يحصل المرضى على أول اتصال لهم مع الممارسين الطبيين في المستشفى. ومع ذلك، فإن الاكتظاظ في قسم الطوارئ يمثل تحديًا عالميًا كبيرًا. في المملكة العربية السعودية، توجد دراسة محدودة حول نسبة مرضى أمراض القلب والأوعية الدموية ضمن المرضى المكتظين في قسم الطوارئ، وعوامل الخطر الرئيسية لأمراض القلب والأوعية الدموية، والتنبؤ الدقيق بحجم مرضى أمراض القلب والأوعية الدموية في قسم الطوارئ. الأهداف: هدفت هذه الدراسة إلى تحليل البيانات التي تم جمعها في حالات الطوارئ في برنامج خدمات الجبيل الصحية للفترة من 2019 إلى 2023 لتحديد نسبة حالات أمراض القلب والأوعية الدموية بين الحالات الطبية المكتظة، والعثور على عوامل الخطر الرئيسية لأمراض القلب والأوعية الدموية في الجبيل، والتنبؤ بحجم مرضى أمراض القلب والأوعية الدموية للأشهر الـ 12 المقبلة في خدمات الجبيل الصحية. المنهجية: تضمنت هذه الدراسة الاسترجاعية جمع البيانات من بوابة البيانات المفتوحة السعودية. على وجه التحديد، تحتوي البيانات التي تم تنزيلها على معلومات تتعلق بـ "حالات الطوارئ في برنامج خدمات الجبيل الصحية" من مجموعة بيانات من 2019 إلى 2023. تم استخدام لغة برمجة بايثون في دمج سجلات السنوات المختلفة في مجموعة بيانات واحدة مدمجة. في مجموعة البيانات المدمجة، استُخدمت وظيفة التعبيرات العادية في بايثون لتصفية حالات أمراض القلب والأوعية الدموية بناءً على كلمات رئيسية خاصة بالمجال، مثل "ألم الصدر" و"ارتفاع ضغط الدم" و"قصور القلب"، وما إلى ذلك، والتي تظهر في عمود "التشخيص الرئيسي" بناءً على رأي خبير أمراض القلب والأوعية الدموية. بعد ذلك، طُبقت معايرة النص وحساب الحجم الإجمالي الشهري على مجموعة البيانات المفلترة لإنشاء قاعدة البيانات الشاملة المستخدمة للإجابة على أسئلة البحث المقترحة. أُجري التحليل الوصفي والتنبؤي باستخدام بايثون. تتضمن نماذج التنبؤ نماذج السلاسل الزمنية الإحصائية (ARMA وARIMA وSARIMA) ونماذج التعلم الآلي (Lasso وRidge وRandom Forest وSupport Vector Regression وLightGBM وXGBoost وStacking ensemble Regression). تم قياس أداء النماذج باستخدام MAPE وRMSE. النتائج: من بين 418,835 زيارة طوارئ، كانت 9,968 منها مرتبطة بأمراض القلب والأوعية الدموية، وهو ما يمثل 2.38% من إجمالي الزيارات من عام 2019 إلى ٢٠٢٣. من بين حالات أمراض القلب والأوعية الدموية، كانت عوامل الخطر الخمسة الرئيسية لأمراض القلب والأوعية الدموية هي ألم الصدر، وارتفاع ضغط الدم، والسكتة الدماغية، وقصور القلب، والسكتة القلبية. بالإضافة إلى ذلك، تم تقييم أداء نماذج التنبؤ للتنبؤ بمعدلات مرضى أمراض القلب والأوعية الدموية الشهرية باستخدام MAPE وRMSE. مع MAPE بنسبة ٧.٩٢٪ وRMSE بنسبة ١٨.٩٦، برز XGBoost كأفضل نموذج أداء من حيث MAPE وRMSE، يليه StackingEnsembleRegressor وRandom Forest وARIMA. باستخدام RMSE، وباستثناء ARIMA، تتفوق معظم نماذج التعلم الآلي على نماذج السلاسل الزمنية الإحصائية لـ ARMA وSARIMA. الخلاصة: تقدم هذه الدراسة تحليلًا قائمًا على البيانات لحالات أمراض القلب والأوعية الدموية في أقسام الطوارئ في المملكة العربية السعودية، وتتنبأ بالحالات المستقبلية الشهرية باستخدام نماذج تنبؤية متعددة.
English Abstract
Background: The impact of CVDs on the economy of Saudi Arabia and mortality of Saudis continue to show worrying trends. In 2016, the CVDs effect on the KSA economy was estimated to be $3.5 billion and is expected to increase to $9.8 billion in 2035. It has been reported that CVDs account for approximately 28% of all deaths caused by the major non-communicable diseases in KSA, resulting in a direct and indirect economic burden of around SAR 52 billion according to the Ministry of Health. Furthermore, in KSA, over 30% of adults are at risk of CVD. In view of this, there is a need to be involved in scholarly work to find better techniques in handling CVD cases, especially in the health systems emergency department (ED) where patients get their first contact with medical practitioners at the hospital. However, overcrowding at ED is a major global challenge. In Saudi Arabia, there is limited study on the percentage of CVD patient within the midst of overcrowded patients in ED, top CVD risk factors and accurate forecast of CVD patient volume in ED. Objectives: This study aimed at analyzing the collected data in the Emergency Cases at Jubail Health Services Program from 2019-2023 to identify percentage of CVD cases amongst the overcrowded medical cases, find the top CVD risk factors in Jubail and forecast the volume of CVD patients for the next 12 months at the Jubail health services. Methods: This retrospective study involved collecting data from the Saudi Open Data Portal. Specifically, the data downloaded contains information relating to “emergency cases in Jubail Health Services Program” from 2019 to 2023 dataset. Python programming language was used in integrating the different years record into one merged dataset. On the merged dataset, python regex functionality was used to filter out CVD cases based on domain-specific keywords such as "chest pain," "hypertension," "heart failure, etc. seen on the “main diagnosis” column based on CVD expert opinion. Thereafter, text normalization and monthly aggregate volume count were applied on the filtered dataset to create the overall database used to answer the proposed research questions. Descriptive and forecasting analysis was done using python. Forecast models include statistical time series models (ARMA, ARIMA, and SARIMA) and machine learning models (Lasso, Ridge, Random Forest, Support Vector Regression, LightGBM, XGBoost and Stacking ensemble regression). Models’ performance was measured using MAPE and RMSE. Results: Out of 418,835 emergency visits, 9,968 were related to cardiovascular diseases, accounting for 2.38% of total visits from 2019 to 2023. Among the CVD cases, the top five CVD risk factors are Chest Pain, Hypertension, Stroke, Heart Failure, Cardiac Arrest. Additionally, the performance of forecasting models to predict monthly CVD patients were evaluated with MAPE and RMSE. With MAPE of 7.92% and RMSE of 18.96 XGBoost emerged as the best-performing model in terms of MAPE and RMSE followed closely by StackingEnsembleRegressor, Random Forest and ARIMA. Using RMSE, and except for ARIMA, most of the machine learning models outperform the statistical time series models of ARMA and SARIMA. Conclusion: This study provides a data-driven analysis of cardiovascular disease cases in Saudi Arabian emergency departments and forecasts monthly future cases using multiple predictive models.
Item Type: | Thesis (Masters) |
---|---|
Subjects: | Management and Marketing |
Department: | KFUPM Business School > Management and Marketing |
Committee Advisor: | Alahmad, Rasha |
Committee Co-Advisor: | Al-Bashrawi, Mousa |
Committee Members: | Althiyabi, Faleh |
Depositing User: | CHIGOZIE OBASI (g202313510) |
Date Deposited: | 20 May 2025 05:46 |
Last Modified: | 20 May 2025 05:46 |
URI: | http://eprints.kfupm.edu.sa/id/eprint/143367 |