Reinforcement Learning for Sustainable Last-Mile Delivery with Parcel Lockers

Reinforcement Learning for Sustainable Last-Mile Delivery with Parcel Lockers. Masters thesis, King Fahd University of Petroleum and Minerals.

[img] PDF
KFUPM_MS_THESIS_BOOK_MD_AQIB_AMAN_g202417340.pdf
Restricted to Repository staff only until 21 May 2027.

Download (8MB)

Arabic Abstract

أصبحت خزائن الطرود حلاً مهماً في التوصيل المستدام في المرحلة الأخيرة، لأنها تساعد على تقليل عمليات التوصيل المنزلي المتكررة، وتحسين تجميع الطلبات، ودعم خفض مسافة السفر والانبعاثات. وانطلاقاً من هذه الأهمية، تطور هذه الدراسة إطاراً موحداً قائماً على التعلم المعزز لمقارنة ثلاثة أنظمة توصيل ضمن بيئة واحدة، وهي: نظام خزائن الطرود الثابتة مع التوصيل المنزلي بحضور المستلم، ونظام خزائن الطرود المتنقلة مع التوصيل المنزلي بحضور المستلم، والنظام الهجين المقترح الذي يجمع بين خزائن الطرود الثابتة وخزائن الطرود المتنقلة والتوصيل المنزلي بحضور المستلم في بيئة تشغيل مشتركة. تمثل إعدادات السيناريوهات الثلاثة مستويات مختلفة من إمكانية خدمة الخزائن، أي القدرة العملية للنظام على تحويل العملاء المؤهلين لاستخدام الخزائن من التوصيل المنزلي إلى خدمة خزائن الطرود، وهي: 30% خدمة خزائن و70% توصيل منزلي، و50% خدمة خزائن و50% توصيل منزلي، وإمكانية خدمة خزائن كاملة بنسبة 100% للعملاء المؤهلين لاستخدام الخزائن. تم اختبار خمسة خوارزميات من خوارزميات التعلم المعزز، وهي: التعلم العميق القائم على دالة القيمة (DQN)، وخوارزمية الممثل والناقد ذات الأفضلية (A2C)، وتحسين السياسة القريب (PPO)، والتعلم العميق بالتكميم الانحداري (QRDQN)، وتحسين السياسة القريب القابل للإخفاء (Maskable PPO). ومن بين جميع الخوارزميات، حققت خوارزمية Maskable PPO أفضل النتائج بشكل عام، خاصة في النظام الهجين، وذلك لقدرتها على التعامل بكفاءة أكبر مع فضاء الأفعال المقيد والمتناقص باستمرار. وتبرز النتائج مخرجين رئيسيين. أولاً، لا يؤدي نظام خزائن الطرود المتنقلة مع التوصيل المنزلي بحضور المستلم أداءً جيداً كنظام مستقل. ثانياً، يحقق النظام الهجين المقترح أفضل أداء عام في جميع السيناريوهات المختبرة. وبناءً على أفضل خوارزمية أداءً في كل نظام، حقق النظام الهجين تحسناً مقارنةً بأفضل نظام لخزائن الطرود الثابتة بنسبة 23.71% و22.74% و17.83% في السيناريوهات المختلفة. كما حقق تحسناً مقارنةً بأفضل نظام لخزائن الطرود المتنقلة بنسبة 15.03% و19.26% و33.98% في السيناريوهات نفسها. وبصورة عامة، تبين النتائج أن خزائن الطرود تكون أكثر فعالية عندما يتم تنسيق الخزائن الثابتة والخزائن المتنقلة والتوصيل المنزلي بحضور المستلم ضمن نظام توصيل هجين واحد، بدلاً من تطبيقها كبدائل مستقلة ومعزولة.

English Abstract

Parcel lockers have become an important solution in sustainable last-mile delivery because they reduce repeated home deliveries, improve delivery consolidation, and support lower travel distance and emissions. Motivated by this importance, this study develops a unified reinforcement learning framework to compare three delivery systems under three different system: fixed parcel locker with attended home delivery, mobile parcel locker with attended home delivery, and a proposed hybrid system that combines fixed parcel lockers, mobile parcel lockers, and attended home delivery in one common environment. The three scenario settings represent different levels of locker-service potential, that is, the practical ability of the system to shift locker-eligible customers from attended home delivery to parcel locker service: 30% locker and 70% home delivery, 50% locker and 50% home delivery, and full 100% locker-service potential for locker-eligible customers. Five reinforcement learning algorithms were tested, namely Deep Q-Learning (DQN), Advantage Actor-Critic (A2C), Proximal Policy Optimization (PPO), Quantile Regression Deep Q-Learning (QRDQN), and Maskable Proximal Policy Optimization (Maskable PPO). Among all algorithms, Maskable PPO achieves the strongest overall results, especially in the hybrid system due to its ability to handle the constrained and continuously shrinking feasible action space more effectively. The results highlight two main outcomes. First, the mobile parcel locker with attended home delivery system does not perform well as a stand-alone system. Second, the proposed hybrid system gives the best overall performance in all tested scenarios. Based on the best-performing algorithm in each system, the hybrid system improves over the best fixed parcel locker system by 23.71%, 22.74%, and 17.83% under different scenarios. It also improves over the best mobile parcel locker system by 15.03%, 19.26%, and 33.98% under the same scenarios. Overall, the findings show that parcel lockers are most effective when fixed lockers, mobile lockers, and attended home delivery are coordinated within one hybrid delivery system rather than applied as isolated stand-alone alternatives.

Item Type: Thesis (Masters)
Subjects: Computer
Department: College of Computing and Mathematics > lndustrial and Systems Engineering
Thesis Advisor:
Ahmad Al Hanbali,
Thesis Committee Members:
Ahmed Atiah, Ahmad Baubaid,
Depositing User: MD. AQIB AMAN (g202417340)
Date Deposited: 21 May 2026 07:19
Last Modified: 21 May 2026 07:19
URI: https://eprints.kfupm.edu.sa/id/eprint/144421