Identifying Contributing Factors to Injury Severity in Road Accidents During Dawn and Dusk Using Explainable Machine Learning. Masters thesis, King Fahd University of Petroleum and Minerals.
|
PDF
MS_Thesis_AhmedMohamed_202308410_May2025.pdf - Accepted Version Restricted to Repository staff only until 7 August 2026. Download (3MB) |
Arabic Abstract
يُعد فهم حوادث المرور أمرًا بالغ الأهمية لتصميم تدخلات فعّالة وموجّهة لتعزيز السلامة المرورية، نظرًا لما تسفر عنه هذه الحوادث من وفيات وإصابات جسيمة. ومع ذلك، فإن العديد من الدراسات السابقة أغفلت الفترات الانتقالية الفريدة بين الليل والنهار، وتحديدًا فترتي الفجر والغروب، مما حدّ من قدرتها على تفسير شدة الإصابات خلال هذه الأوقات. وانطلاقًا من هذه الفجوة البحثية، أُجريت دراسة تحليلية شاملة للعوامل المؤثرة في مستوى شدة الإصابات الناجمة عن الحوادث المرورية خلال فترتي الفجر والغروب، بالاعتماد على بيانات تغطي إحدى عشرة سنة (2013-2023) تشمل سجلات الحوادث على مستوى الأفراد (السائقين، الركاب، والمشاة) في مملكة البحرين. قامت هذه الدراسة بتطوير وتقييم ستة نماذج تنبؤية من تقنيات تعلم الآلة للتنبؤ بشدة الإصابات الناتجة عن الحوادث. وتضمنت النماذج نموذجين أساسيين هما الانحدار اللوجستي (LR)، وشجرة القرار (DT)، بالإضافة إلى أربعة نماذج قائمة على تقنيات التعزيز والتجميع (bagging/boosting)، وهي الغابة العشوائية (RF)، والتعزيز التكيفي (AdaBoost)، والتعزيز التدريجي (GB)، والتعزيز المتدرج المتطرف (XGBoost). وبيّنت النتائج المقارنة للنماذج، وأظهرت النتائج أن نموذج AdaBoost حقق أفضل أداء بشكل عام لكل من بيانات الفجر وبيانات الغروب، وذلك وفقًا لمجموعة من مؤشرات الأداء الموزونة ومتوسطها مثل الدقة (Accuracy)، ومعامل الاسترجاع (الحساسية) (Precision)، والدقة (Recall)، و(F1-score)، بالإضافة إلى المساحة تحت منحنى الاستجابة (AUC-ROC). ولتفسير مخرجات نموذج AdaBoost، تم استخدام منهجية SHAP (SHapley Additive exPlanations) كأداة من أدوات تقنيات تعلم الآلة القابلة للتفسير (XML)، لتحديد أهمية وتأثير العوامل المؤثرة على مستوى شدة الإصابة في حوادث الطرق، سواء على مستوى التفسير العام للنموذج أو على مستوى التفسير الفردي للتنبؤات. وكشف التحليل أن العوامل هي مشاركة الراكب في الحادثة، والطريق المزدوج بسرعة 50–80 كم/س، وعدم وجود تأثير (عدم حدوث تصادم) خارج نطاق الطريق، وفصل الشتاء، ومشاركة الجنسية غير البحرينية، ومشاركة الجنس من الرجال، ومقطع طريق مستقيم يحتوي على أعمدة إنارة، ومشاركة المشاة، لها تأثير واضح على مستوى شدة الإصابة. وأظهرت هذه العوامل أنماط خطورة متفاوتة بين فترتي الفجر والغروب. ولضمان موثوقية النتائج، أُجريت تحليلات الحساسية والثبات عبر تشابه جيب التمام (cosine similarity) لتغيرات قيم SHAP، وأكدت النتائج ثبات العوامل (المتغيرات) الرئيسية المؤثرة على شدة الإصابة. تعكس هذه النتائج أهمية العوامل المحددة وتأثيرها على نتائج شدة الإصابات في حوادث الطرق خلال فترتي الفجر والغروب، وتوفر رؤى قابلة للتنفيذ لتصميم تدخلات وقائية فعالة ومستهدفة لتعزيز السلامة المرورية
English Abstract
Understanding road traffic accidents is essential for designing effective, targeted safety interventions, given their substantial role in fatalities and injuries. Nonetheless, previous studies have frequently neglected the unique transitional periods of dawn and dusk, constraining insights into the injury severity of crashes during these specific periods. To address this gap, a comprehensive analysis of the factors that influence the injury severity of crashes during dawn and dusk is essential. This study utilized an 11-year (2013-2023) dataset from Bahrain, employing a disaggregated analytical approach that focuses on the person level. This includes drivers, passengers, and pedestrians involved in the accidents. This study developed and evaluated six machine learning (ML) models for predicting crash injury severity. The ML models included two baseline models, logistic regression (LR) and decision tree (DT). In addition, four ensemble learning models based on bagging and boosting techniques were utilized, namely random forest (RF), adaptive boosting (AdaBoost), gradient boosting (GB), and extreme gradient boosting (XGBoost). Among the developed models, AdaBoost achieved the best overall performance on both dawn and dusk datasets based on different weighted average performance metrics, including accuracy, precision, recall (sensitivity), F1-score, and the area under the Receiver Operation Characteristic Curve (AUC-ROC). To address the challenges associated with interpretability inherent in machine learning (ML) models, the SHapley Additive exPlanations (SHAP) analysis was utilized as an explainable machine learning (XML) technique to interpret the AdaBoost model and assess the significance and contribution of features to injury severity using both global and local explanations. The analysis identified several contributing features that significantly influence injury severity, including passenger, dual carriageway 50-80 KPH, no off-road impact, winter, non-Bahraini, male, road section with streetlight, and pedestrian. These features exhibited differing risk patterns throughout dawn and dusk periods. To ensure the robustness of these findings, sensitivity and stability analyses were conducted using cosine similarity for SHAP value perturbations. The results validated the robustness of the key features (predictors). Overall, these findings underscore the key factors influencing injury severity during dawn and dusk periods and provide actionable practical for targeted interventions.
| Item Type: | Thesis (Masters) |
|---|---|
| Subjects: | Civil Engineering > Transportation Engineering |
| Department: | College of Design and Built Environment > Civil and Environmental Engineering |
| Committee Advisor: | Abdullah, Muhammad |
| Committee Members: | Rahman, Syed Masiur and Al-Ahmadi, Hassan Mousaid |
| Depositing User: | AHMED MOHAMED (g202308410) |
| Date Deposited: | 10 Aug 2025 06:09 |
| Last Modified: | 10 Aug 2025 06:09 |
| URI: | http://eprints.kfupm.edu.sa/id/eprint/143647 |