Reinforcement Learning–Based Operational Optimization of a Hybrid Renewable System with Energy Storage. Masters thesis, King Fahd University of Petroleum and Minerals.
|
PDF
KFUPM_Thesis_Monzer_Khalid.pdf Restricted to Repository staff only until 21 May 2027. Download (5MB) |
Arabic Abstract
تُسهم محطات الطاقة المتجددة الهجينة التي تجمع بين الخلايا الكهروضوئية )PV( وطاقة الرياح والطاقة الشمسية المركزة )CSP( مع التخزين الحراري للطاقة )TES( وأنظمة تخزين الطاقة بالبطاريات )BESS( في تحسين الاستفادة من الطاقة المتجددة ورفع موثوقية الإمداد، إلا أن تشغيلها يظل تحديًا بسبب الترابط الزمني القوي بين قرارات التوزيع وقرارات التخزين. تتناول هذه الرسالة مشكلة التوزيع التشغيلي لنظام هجين يجمع بين الخلايا الكهروضوئية والرياح والطاقة الشمسية المركزة مع التخزين الحراري وتخزين البطاريات باستخدام إطار قائم على التعلم المعزز. وقد تمت صياغة النظام على هيئة عملية قرار ماركوف متسقة مع التنفيذ البرمجي، حيث يلاحظ المتحكم ظروف الطقس والطلب وحالات التخزين والخصائص الزمنية والإجراءات السابقة، ثم يحدد إجراءات شحن وحدات التخزين والتحكم في التفريغ. تم أولًا تقييم ثلاث بنيات لأولوية التوزيع معتمدة على خوارزمية ،PPO وهي أولوية المتجددات أولًا، والأولوية الديناميكية، وأولوية الطاقة الشمسية المركزة أولًا. وأظهرت النتائج أن بنية أولوية المتجددات أولًا تحقق أفضل توازن عام بين العائد والموثوقية وتقليل الفاقد، مع تبسيط مشكلة التحكم في الوقت نفسه. وبعد اختيار هذه البنية، أُجري تحليل حساسية لتحسين إعدادات خوارزمية .PPO وحقق المتحكم المضبوط أفضل أداء سنوي كلي، ثم جرت مقارنته بمتحكم قاعدي حتمي وبخوارزميتين منافستين (TD3). Gradient Policy Deterministic Deep Delayed Twinو (SAC) Actor--Critic Soft من خوارزميات التعلم المعزز العميق، وهما وأظهرت النتائج أن PPO حققت أدنى احتمال لفقد الإمداد، وأقل نسبة فاقد للطاقة، وأفضل عائد مُشكَّل بالتكلفة، وأقصر زمن تدريب بين جميع المتحكمات المختبرة. وتُبين هذه النتائج أن متحكم PPO مضبوطًا مع بنية أولوية المتجددات أولًا يوفر إستراتيجية فعالة وقابلة للتفسير وذات كفاءة حسابية للتشغيل الأمثل لأنظمة الطاقة الهجينة التي تجمع بين الخلايا الكهروضوئية والرياح والطاقة الشمسية المركزة مع التخزين الحراري وتخزين البطاريات.
English Abstract
Hybrid renewable power plants that combine photovoltaic (PV), wind, and concentrated solar power (CSP) with thermal energy storage (TES) and battery energy storage systems (BESS) can improve renewable utilization and supply reliability, but their operation remains challenging because dispatch and storage decisions are strongly coupled over time. This thesis addresses the operational dispatch problem of a hybrid PV–wind–CSP system with TES and BESS using a reinforcement-learning-based framework. The system is formulated as a code-consistent Markov decision process in which the controller observes weather conditions, demand, storage states, time-related features, and previous actions, and then determines storage-charging and discharge-control actions. Proximal Policy Optimization (PPO), a policy-gradient reinforcement learning algorithm for continuous-control problems, is adopted as the main learning method. Three PPO-based dispatch-priority structures are first evaluated, namely fixed renewable-first, in which renewable electric generation is prioritized before CSP and storage resources, dynamic priority, in which the controller learns the dispatch order adaptively, and fixed CSP-first, in which CSP generation is prioritized ahead of renewable-electric generation. The results show that the fixed renewable-first structure provides the best overall trade-off among total operating cost, loss of power supply probability (LPSP), and curtailment while also simplifying the control problem. After selecting this structure, a sensitivity analysis is carried out to improve the PPO configuration. The tuned PPO controller is then benchmarked against a deterministic rule-based controller that follows a predefined dispatch strategy with fixed charging and discharge actions, and against two competing deep reinforcement learning algorithms, Soft Actor–Critic (SAC) and Twin Delayed Deep Deterministic Policy Gradient (TD3). The results show that PPO reduces total operating cost, LPSP, and curtailment relative to the rule-based benchmark and also outperforms SAC and TD3 on the same adopted system while requiring the shortest training time among the tested controllers. These findings show that a tuned renewable-first PPO controller provides an effective, interpretable, and computationally efficient strategy for the operational optimization of hybrid PV–wind–CSP systems with thermal and battery storage.
| Item Type: | Thesis (Masters) |
|---|---|
| Subjects: | Computer |
| Department: | College of Computing and Mathematics > lndustrial and Systems Engineering |
| Thesis Advisor: |
Ahmad Al Hanbali,
|
| Thesis Committee Members: |
Mohammad Aldurgam,
Ahmed Ghaithan,
|
| Depositing User: | MONZER KHALID (g202416400) |
| Date Deposited: | 02 Jun 2026 06:28 |
| Last Modified: | 02 Jun 2026 06:28 |
| URI: | https://eprints.kfupm.edu.sa/id/eprint/144438 |