An Explainable AI Approach to Travel Mode Choice Modeling

An Explainable AI Approach to Travel Mode Choice Modeling. Masters thesis, King Fahd University of Petroleum and Minerals.

[img] PDF (My MSc Thesis)
Kidanemariam_KFUPM_MSc_Thesis_Final.pdf - Accepted Version
Restricted to Repository staff only until 18 June 2027.

Download (5MB)

Arabic Abstract

تُعد نماذج اختيار وسيلة السفر عنصرًا أساسيًا في تخطيط النقل وتقييم السياسات، لأنها تصف كيفية اختيار المسافرين بين وسائل النقل المتاحة. تعتمد نماذج الاختيار المنفصل المستخدمة تقليديًا لهذه المهمة على افتراضات سلوكية وشكلية مقيدة قد تحدّ من دقة التنبؤ، في حين يوفر تعلّم الآلة بديلًا أكثر مرونة. إلا أن تبنّي هذا البديل يواجه تحديات تتمثل في محدودية قابلية التفسير، وممارسات التقييم التي قد تبالغ في تقدير الأداء نتيجة تسرب البيانات، إضافةً إلى عدم اليقين بشأن ما إذا كانت النماذج التأسيسية الحديثة المقترحة للبيانات الجدولية تقدم مزايا حقيقية مقارنةً بنماذج التعزيز التدريجي (Gradient Boosting) المضبوطة بعناية. تعالج هذه الدراسة هذه المشكلات من خلال تطوير إطار عمل لتعلّم الآلة القابل للتفسير لنمذجة اختيار وسيلة السفر باستخدام مجموعة بيانات London Passenger Mode Choice، مع تطبيق تقسيم البيانات وفقًا لمجموعات الأسر والتحقق المتقاطع المعتمد على المجموعات (Grouped Cross-Validation) في جميع المراحل للحد من تسرب البيانات. في المرحلة الأولى، تمت مقارنة سبعة نماذج مرشحة هي: الانحدار اللوجستي (Logistic Regression)، وآلة المتجهات الداعمة (Support Vector Machine)، والغابة العشوائية (Random Forest)، والتعزيز التدريجي الشديد (Extreme Gradient Boosting - XGBoost)، والشبكة العصبية العميقة (Deep Neural Network)، وFT-Transformer، وTabTransformer، وذلك من حيث دقة التصنيف على مستوى الأفراد، وجودة التنبؤات الاحتمالية (خسارة اللوغاريتم Log-Loss والمعايرة Calibration)، ودقة تقدير الحصص الإجمالية لاستخدام وسائل النقل. وقد حقق نموذج XGBoost أفضل توازن إجمالي عبر هذه المعايير، ولذلك تم اختياره كنموذج نهائي. في المرحلة الثانية، تمت مقارنة XGBoost مع نموذج اللوغيت متعدد الحدود (Multinomial Logit) كنموذج مرجعي، ومع النموذج الجدولي الكبير المتكامل (Integrated Large Tabular Model - iLTM)، والذي طُبّق سواءً دون أي تدريب خاص بالمهمة (Zero-Shot) أو باستخدام أسلوب التكيّف منخفض الرتبة الفعّال من حيث المعلمات (Low-Rank Adaptation - LoRA، أي iLTM+LoRA). وعلى الرغم من أن iLTM+LoRA ساوى أو تفوق على XGBoost في خمسة من أصل ستة مقاييس على مجموعة الاختبار النهائية مع تحديث 7,684 معلمة فقط، كما أظهر معايرة أفضل بشكل ملحوظ، فقد تم الإبقاء على XGBoost كنموذج مختار استنادًا إلى توازنه التنبؤي العام واستقراره وكفاءته الحاسوبية. كشفت تحليلات قابلية التفسير للنموذج المختار باستخدام SHAP، ومنحنيات الاعتماد الجزئي (Partial Dependence)، وتوقعات الشرط الفردية (Individual Conditional Expectation)، والتأثيرات المحلية التراكمية (Accumulated Local Effects)، عن تأثيرات معقولة وذات صلة بمجال النقل للمتغيرات التفسيرية، رغم أن التنبؤ باستخدام الدراجات الهوائية ظلّ صعبًا نسبيًا. كما أظهر تحليل السيناريوهات، المعتمد على إحداث تغييرات منهجية في خصائص مستوى الخدمة، أن نموذج XGBoost قد ينتج استجابات سلوكية غير منطقية عند تغيير زمن الرحلة بالسيارة، مما يؤكد ضرورة إجراء تحقق سلوكي قبل استخدام النماذج التنبؤية في تطبيقات السياسات العامة. تشير النتائج إلى أن تعلّم الآلة القابل للتفسير يمكن أن يعزز نمذجة اختيار وسيلة السفر، مع التأكيد على أن العلاقات المبلّغ عنها تمثل ارتباطات تنبؤية وليست تأثيرات سببية.

English Abstract

Travel mode choice models are central to transport planning and policy appraisal because they describe how travellers select among available modes. The discrete choice models traditionally used for this task rest on restrictive behavioural and functional-form assumptions that can limit predictive accuracy, while machine learning offers a flexible alternative whose adoption is hindered by limited interpretability, evaluation practices that can overstate performance through data leakage, and uncertainty about whether recently proposed tabular foundation models offer genuine advantages over well-tuned gradient-boosting baselines. This study addresses these problems by developing an explainable machine learning framework for travel mode choice modelling using the London Passenger Mode Choice dataset, with household-grouped data splitting and grouped cross-validation applied throughout to reduce leakage. In Stage 1, seven candidate models Logistic Regression, Support Vector Machine, Random Forest, Extreme Gradient Boosting (XGBoost), a Deep Neural Network, FT-Transformer, and TabTransformer were compared on individual-level classification accuracy, probabilistic prediction quality (log-loss and calibration), and aggregate mode-share accuracy. XGBoost provided the best overall balance across these criteria and was selected as the final model. In Stage 2, XGBoost was benchmarked against a Multinomial Logit reference and the Integrated Large Tabular Model (iLTM), applied both without any task-specific training (zero-shot) and with parameter-efficient Low-Rank Adaptation (iLTM+LoRA). Although iLTM+LoRA matched or exceeded XGBoost on five of six hold-out metrics while updating only 7,684 parameters, and was markedly better calibrated, XGBoost was retained as the selected model on the basis of its overall predictive balance, stability, and computational efficiency. Explainability analyses of the selected model using SHAP, partial dependence, individual conditional expectation, and accumulated local effects revealed plausible, transport-relevant feature effects, although cycling remained difficult to predict. A scenario analysis based on systematic perturbation of level-of-service attributes showed that XGBoost can produce behaviourally implausible responses to changes in car travel time, underscoring the need for behavioural validation before predictive models are used in policy applications. The findings indicate that explainable machine learning can enhance travel mode choice modelling, although the reported relationships represent predictive associations rather than causal effects.

Item Type: Thesis (Masters)
Subjects: Civil Engineering
Civil Engineering > Transportation Engineering
Department: College of Design and Built Environment > Civil and Environmental Engineering
Thesis Advisor:
Syed Rahman,
Thesis Committee Members:
Hassan Al-ahmadi, Muhammad Abdullah,
Depositing User: KIDANEMARIAM ALULA HABTEGIORGIS
Date Deposited: 21 Jun 2026 12:10
Last Modified: 21 Jun 2026 12:10
URI: https://eprints.kfupm.edu.sa/id/eprint/144600