CAPACITY OPTIMIZATION IN UAV-ASSISTED RIS UNDER JITTERING AND IMPERFECT CSI VIA DEEP REINFORCEMENT LEARNING. Masters thesis, King Fahd University of Petroleum and Minerals.
|
PDF
Final.pdf Restricted to Repository staff only until 15 January 2027. Download (23MB) |
Arabic Abstract
يمكن للأسطح الذكية القابلة لإعادة التهيئة (RIS) المُثبّتة على الطائرات بدون طيار (UAV) أن تعيد تشكيل انتشار الإشارة اللاسلكية عند الطلب. ومع ذلك، فإن أداءها حساس لاهتزاز منصة الطائرة بدون طيار ولعدم اليقين في القناة المتسلسلة. تدرس هذه الرسالة نظام وصلٍ نزولي متعدد المُدخلات مفرد المخرج (MISO) لسطح (RIS) مُركّب على طائرة بدون طيار، حيث تقوم محطة قاعدية أرضية (BS) مزوّدة بمصفوفة هوائيات متعددة بخدمة عدة مستخدمين أحاديي الهوائي، وذلك في ظل إعاقات عملية. يهدف هذا العمل إلى تعظيم معدل النقل المتوقّع في وجود اهتزاز عشوائي ثلاثي الأبعاد للطائرة بدون طيار وعدم كمال معلومات حالة القناة المتسلسلة (CSI) بالاعتماد فقط على التقديرات الاسمية للقناة. يؤدي ذلك إلى مسألة تحسين عشوائية لاخطية وغير محدّبة، خاضعة لقيد قدرة الإرسال في المحطة القاعدية وقيود وحدة المطال الصارمة على جميع عناصر السطح الذكي. ولحل هذه المسألة، نصمّم إطار تعلّم معزّز عميق خالٍ من النماذج (DRL) بصياغة “العصابة السياقية” (Contextual Bandit). تُستخدم طبقة صلاحية قابلة للاشتقاق لتحويل الأفعال المستمرة إلى حلول ممكنة، بينما يمثّل العائد تقديراً بطريقة مونتِ كارلو لمعدل النقل المتوقّع. نُطبّق هذا الإطار باستخدام نسخ مقيّدة من خوارزميتي تدرّج السياسة الحتمية العميقة (DDPG) و(TD3) من دون استخدام شبكات هدف. وتستخدم نسخة (TD3) ناقدين توأمين وتحديثات سياسة مؤجّلة لتحسين استقرار التدريب. تُظهر المحاكاة أن الخوارزميات المتعلّمة تحقق معدلات نقل أعلى من خوارزميات الأساس من نوع التحسين التبادلي مع أقل متوسط مربّع خطأ موزون (AO-WMMSE) في ظل اهتزاز شديد وجودة منخفضة لمعلومات حالة القناة. كما تبقى الخوارزميات المتعلّمة ضمن حوالي 0% إلى 12% من معيار (AO-WMMSE) المعتمد على تقريب متوسط العينة (SAA) عبر مستويات الخطأ المجمّعة. إضافةً إلى ذلك، تحقق هذه الخوارزميات مكاسب بنسبة 28% إلى 45% من خلال تحسين (RIS) مقارنةً بحالة تحسين مُشكّل الحزمة فقط. علاوةً على ذلك، تحقق وحدات التحكم المقترحة القائمة على التعلّم المعزّز العميق زمناً استدلالياً آنياً في حدود 6.0 مللي ثانية لكل قرار، مقابل نحو 370 إلى 550 مللي ثانية لخوارزميات حل (AO-WMMSE)، مما يجعل النهج مناسباً لتطبيقات الأسطح الذكية المُثبّتة على طائرات بدون طيار سريعة التغيّر زمنياً.
English Abstract
Reconfigurable intelligent surfaces (RISs) mounted on UAVs can reshape wireless propagation on demand. However, their performance is sensitive to UAV jitter and cascaded channel uncertainty. This thesis investigates a downlink multiple-input single-output (MISO) UAV-mounted RIS system in which a ground base station (BS) with a multiple-antenna array serves multiple single-antenna users under practical impairments. Our goal is to maximize the expected throughput under stochastic three-dimensional UAV jitter and imperfect cascaded channel state information (CSI) based only on nominal channel estimates. This leads to a stochastic nonconvex optimization problem subject to a BS transmit power constraint and strict unit-modulus constraints on all RIS elements. To address this problem, we design a model-free deep reinforcement learning (DRL) framework with a contextual bandit formulation. A differentiable feasibility layer is used to map continuous actions to feasible solutions, while the reward is a Monte Carlo estimate of the expected throughput. We instantiate this framework with constrained variants of deep deterministic policy gradient (DDPG) and twin delayed deep deterministic policy gradient (TD3) that do not use target networks. The TD3 variant employs twin critics and delayed policy updates to improve training stability. Simulations show that the learned algorithms yield higher throughput than alternating optimization weighted minimum mean-square error (AO-WMMSE) baselines under severe jitter and low CSI quality. Across different scenarios, the proposed methods achieve performance that is either comparable to or slightly below the AO-WMMSE benchmark based on sample average approximation (SAA), with a relative gap ranging from 0% to 12%. They also provide 28% to 45% gains by optimizing the RIS compared to beamformer-only optimization. Moreover, the proposed DRL controllers achieve online inference times on the order of 0.6 ms per decision versus roughly 370 to 550 ms for AO-WMMSE solvers, making the approach suitable for fast time-varying UAV-mounted RIS deployments.
| Item Type: | Thesis (Masters) |
|---|---|
| Subjects: | Computer Engineering Electrical |
| Department: | College of Engineering and Physics > Electrical Engineering |
| Committee Advisor: | Muqaibel, A. |
| Committee Members: | Nasir, Ali and Rabie, Khaled |
| Depositing User: | ANAS SAEED (g202317950) |
| Date Deposited: | 18 Jan 2026 09:19 |
| Last Modified: | 18 Jan 2026 09:19 |
| URI: | http://eprints.kfupm.edu.sa/id/eprint/144034 |