ANALYZING IRREGULAR CYCLIST BEHAVIOR AND TRAFFIC CONFLICTS IN MIXED URBAN ENVIRONMENTS USING EXPLAINABLE AI

ANALYZING IRREGULAR CYCLIST BEHAVIOR AND TRAFFIC CONFLICTS IN MIXED URBAN ENVIRONMENTS USING EXPLAINABLE AI. Masters thesis, King Fahd University of Petroleum and Minerals.

[img] PDF (MS Thesis)
MohamedShahraz_FinalMScThesisReport.pdf
Restricted to Repository staff only until 1 January 2027.

Download (4MB)

Arabic Abstract

لا يزال فهم كيفية تأثير سلوكيات راكبي الدراجات غير المنتظمة في حركة المرور المختلطة على شدة الإصابات يُمثل تحديًا رئيسيًا في أبحاث السلامة المرورية. عادةً ما تُركز الدراسات الحالية على نمذجة عوامل الخطر الفردية، لكنها نادرًا ما تكشف عن أنماط سلوكية متماسكة أو تُفسر كيف تُؤثر مجموعات السلوكيات غير المنتظمة على نتائج الحوادث. تتناول هذه الأطروحة هذه الفجوة من خلال تطوير وتقييم إطار عمل ثنائي الفروع وقابل للتفسير لتصنيف حوادث اصطدام الدراجات بالمركبات، وذلك بتطبيقه على مجموعات بيانات كبيرة من ولايتي كولورادو وكارولاينا الشمالية. يستخدم الفرع التحليلي الأول تحليل الفئات الكامنة (LCA) على متغيرات سلوكية فئوية، تشمل السرعة الزائدة، وتعاطي الكحول والمخدرات، وسلوكيات السائق، وحركة المركبة، والعوامل المساهمة، واستخدام الخوذة، وعيوب المركبة، وذلك لتحديد أنماط سلوك الحوادث الكامنة. يدعم اختيار النموذج باستخدام معيار المعلومات البايزي والإنتروبيا حلاً من ست فئات، كاشفاً عن أنماط سلوكية متميزة مثل مخالفي التقاطعات من ذوي الإعاقة وقلة الخبرة، ومخالفي إشارات المرور وإشارات التوقف عند السرعات العالية، وحالات التداخل في الانعطاف وحق الأولوية، وحالات التداخل في تغيير المسار والتجاوز، وفئتين منخفضتي الإسناد تعتمدان على الترميز. يؤدي دمج مؤشرات فئات تحليل الفئات الكامنة (LCA) في نماذج شدة الإصابة اللوجستية الثنائية إلى تحسين الأداء التنبؤي مقارنةً بنموذج أساسي للسلوكيات الفردية، مما يرفع مساحة المنطقة تحت المنحنى (AUC) من 0.736 إلى 0.776 ومعامل التحديد الزائف (pseudo-R²) من 0.092 إلى 0.142، مما يدل على أن البنية السلوكية الكامنة تستوعب معلومات إضافية ذات صلة بالشدة. يعتمد الفرع الثاني على نهج قائم على البيانات والرسوم البيانية. يتم إنشاء رسم بياني للحوادث وتضمينه باستخدام مُشفِّر تلقائي للرسوم البيانية التباينية، ثم إسقاطه باستخدام UMAP، وتجميعه عبر HDBSCAN. تُحدد هذه الآلية ثلاث مجموعات كثيفة ومجموعة ضوضاء غير متجانسة. يكشف تحليل السلوك، وتحليل المخاطر النسبية، والاختبارات الإحصائية عن نظامين عاليي الخطورة: (أ) مخالفات القيادة تحت تأثير الكحول أو قلة الخبرة عند نقاط التفتيش المرورية، و(ب) تعارضات حق المرور والانعطاف التي تشمل راكبي دراجات أكثر عرضة للخطر، والتي غالبًا ما تتسم بعدم ارتداء الخوذة. عند إضافة مؤشرات مجموعات HDBSCAN إلى نموذج شدة الخطورة، يتحسن الأداء التنبؤي بشكل أكبر (AUC = 0.812؛ pseudo-R² = 0.177)، مما يشير إلى توافق أقوى بين هذا التقسيم ونتائج الإصابات. لتعزيز قابلية التفسير، تُستخدم نماذج الغابات العشوائية البديلة وقيم SHAP لشرح حلول التجميع، مما يُظهر أن السرعة الزائدة، وتناول الكحول، ومخالفات نقاط التفتيش، وأخطاء إعطاء الأولوية، وعدم ارتداء الخوذة هي عوامل الخطر الرئيسية ضمن مجموعات محددة. على الرغم من التداخل الموضوعي، تشير قيم مؤشر راند المعدل وقيم المعلومات المتبادلة المعيارية القريبة من الصفر إلى أن تحليل المتغيرات الكامنة (LCA) وخوارزمية HDBSCAN يصنفان الحوادث إلى أقسام مستقلة إلى حد كبير، مما يعكس وجهات نظر مختلفة جوهريًا حول التباين السلوكي. أخيرًا، استُخدمت نماذج لغوية كبيرة كلجان خبراء منظمة لتجميع وتقييم النهجين، حيث صُنفت LCA على أنها أكثر قابلية للتفسير السلوكي، بينما صُنفت HDBSCAN على أنها أكثر دقة في تحديد شدة الإصابة. بشكل عام، تُظهر هذه الأطروحة أن الجمع بين نمذجة المتغيرات الكامنة، والتعلم القائم على الرسوم البيانية، والتعلم الآلي القابل للتفسير، والتقييم القائم على نماذج اللغة الكبيرة، يوفر فهمًا أعمق وأكثر دقة لسلوك راكبي الدراجات غير المنتظم وشدة الإصابات مقارنةً بأي طريقة منفردة، مما يوفر إطارًا قابلًا للتطبيق لتحليل السلامة المرورية الذي يركز على السلوك

English Abstract

Understanding how irregular cyclist behaviors in mixed traffic translate into injury severity remains a key challenge in road-safety research. Existing studies typically model individual risk factors but rarely uncover coherent behavioral regimes or explain how combinations of irregular behaviors shape crash outcomes. This thesis addresses this gap by developing and evaluating a dual-branch, explainable clustering framework for cyclist–motor-vehicle crashes, applied to large datasets from Colorado and North Carolina. The first analytical branch employs Latent Class Analysis (LCA) on categorical behavioral variables, including speeding, alcohol and drug involvement, driver actions, vehicle movements, contributory factors, helmet use, and vehicle defects, to identify latent crash-behavior profiles. Model selection using Bayesian Information Criterion and entropy supports a six-class solution, revealing distinct behavioral regimes such as impaired and inexperienced intersection violators, high-speed signal and stop-control violators, turning and right-of-way conflicts, lane-change and passing conflicts, and two coding-driven low-attribution classes. Incorporating LCA class indicators into binary logistic injury-severity models increases predictive performance relative to a baseline model of individual behaviors, raising AUC from 0.736 to 0.776 and pseudo-R² from 0.092 to 0.142, demonstrating that latent behavioral structure captures additional severity-relevant information. The second branch adopts a data-driven, graph-based approach. A crash graph is constructed and embedded using a variational graph auto-encoder, projected with UMAP, and clustered via HDBSCAN. This pipeline identifies three dense clusters and a heterogeneous noise group. Behavioral profiling, relative-risk analysis, and statistical testing reveal two high-risk regimes: (i) impaired and inexperienced violations at traffic controls, and (ii) right-of-way and turning conflicts involving more vulnerable cyclists, often characterized by helmet non-use. When HDBSCAN cluster indicators are added to the severity model, predictive performance improves further (AUC = 0.812; pseudo-R² = 0.177), indicating stronger alignment between this segmentation and injury outcomes. To enhance interpretability, Random-Forest surrogate models and SHAP values are used to explain both clustering solutions, showing that speeding, alcohol involvement, control violations, yielding errors, and helmet non-use dominate risk within specific clusters. Despite thematic overlap, adjusted Rand index and normalized mutual information values close to zero indicate that LCA and HDBSCAN assign crashes to largely independent partitions, reflecting fundamentally different perspectives on behavioral heterogeneity. Finally, large language models are used as structured expert panels to synthesize and evaluate the two approaches, rating LCA as more behaviorally interpretable and HDBSCAN as more severity-informative. Overall, the thesis demonstrates that combining latent variable modeling, graph-based learning, explainable machine learning, and LLM-based evaluation provides a richer and more critical understanding of irregular cyclist behavior and injury severity than any single method alone, offering a transferable framework for behavior-centered road-safety analysis

Item Type: Thesis (Masters)
Subjects: Civil Engineering > Transportation Engineering
Department: College of Design and Built Environment > Civil and Environmental Engineering
Committee Advisor: Al-Ahmadi, H.M
Committee Members: Abdullah, Muhammad and Rahman, Syed Masiur
Depositing User: MOHAMED SHAHRAZ (g202390810)
Date Deposited: 04 Jan 2026 07:39
Last Modified: 04 Jan 2026 07:39
URI: http://eprints.kfupm.edu.sa/id/eprint/143973