Modeling Advanced Persistent Threats Using Stackelberg Game Theory and Reinforcement Learning under Partial Observability

Modeling Advanced Persistent Threats Using Stackelberg Game Theory and Reinforcement Learning under Partial Observability. Masters thesis, King Fahd University of Petroleum and Minerals.

[img] PDF
FatimaAnis_Thesis.pdf - Accepted Version
Restricted to Repository staff only until 17 July 2026.

Download (2MB)

Arabic Abstract

التهديدات المستمرة المتقدمة (Advanced Persistent Threats - APTs) هي هجمات إلكترونية متطورة تتميز بالتخفي وطول الأمد، وتستهدف الأنظمة الحساسة عبر سلسلة خطوات مخطط لها بعناية. تقدم هذه الأطروحة إطارًا جديدًا لنمذجة سلوك هذه التهديدات بدمج نظرية لعبة ستاكلبيرج والتعلم المعزز (Reinforcement Learning - RL) ضمن بيئة تتسم بالملاحظة الجزئية. يُعامَل المهاجم كقائد يختار مسارات متعددة المراحل للهجوم، في حين يكون دور المدافع تابعًا يستجيب بناءً على معلومات جزئية حول تحركات المهاجم. تم تصميم النموذج كلعبة عشوائية جزئية الملاحظة، حيث يُعبَّر عن عدم اليقين عبر تنبيهات كشف التسلل المشوشة وتحديث الاعتقادات بالاستدلال البايزي. تُحدد مسارات المهاجم عبر الشبكة من خلال المخطط البياني للهجمات، المستند إلى إطار ديناميكيات الهجوم (Attack Dynamics) والمتوافق مع تكتيكات MITRE ATT\&CK. يُدرَّب كل من وكيلي المهاجم والمدافع باستخدام خوارزمية تحسين السياسة المُقارب (Proximal Policy Optimization - PPO)، حيث يتعلم المهاجم الوصول إلى أهداف عالية القيمة مع تجنب الكشف، ويتعلم المدافع معالجة الثغرات الأمنية والاستجابة للهجمات بناءً على ملاحظات جزئية. للتحقق من صحة الإطار المقترح، طُوِّر نموذج أولي مبسط على شبكة حاسوبية محاكاة مكونة من عشر عقد. قُيِّم أداء المهاجم مقابل استراتيجيتين دفاعيتين: السد العشوائي للثغرات وسد الثغرات المدرك للجيران. أظهرت النتائج قدرة المهاجم المُدرَّب على تعلّم استراتيجيات فعالة، وحقق نسبة نجاح تجاوزت 80% مع المحافظة على التخفي ضد استراتيجية الدفاع العشوائي. في المقابل، أدت استراتيجية سد الثغرات المدرك للجيران إلى إبطاء المهاجم وزيادة معدلات الكشف. يُسهم هذا العمل في توفير بيئة محاكاة قابلة للتوسع لتقييم التهديدات السيبرانية الذكية وتعزيز قدرات الدفاعات الأمنية التكيفية.

English Abstract

Advanced Persistent Threats (APTs) are stealthy, long-term cyberattacks that target critical systems using a series of carefully planned steps. This thesis presents a framework that models APT behavior through a combination of Stackelberg game theory and Reinforcement Learning (RL) under partial observability. The attacker is treated as the leader who selects multi-stage attack paths, while the defender is the follower who responds with limited information about the attacker’s actions. The model is designed as a partially observable stochastic game, where uncertainty is introduced through noisy intrusion detection alerts and belief updates based on Bayesian inference. An attack graph, built using the Attack Dynamics framework and mapped to MITRE ATT\&CK tactics, defines how the attacker can move through the network. Both attacker and defender agents are trained using the Proximal Policy Optimization (PPO) algorithm, with the attacker learning to evade detection and reach high-value targets, while the defender learns to patch vulnerabilities and respond to intrusions using incomplete observations. To validate the framework, a lightweight prototype was implemented on a simulated 10-node network. The attacker was evaluated against two baseline defense strategies: random patching and neighbor-aware patching. The results show that the PPO-trained attacker was able to learn effective attack strategies, especially under the weaker random defense, achieving about an 80\% success rate in compromising the network while remaining undetected. The neighbor-aware strategy, however, slowed down the attacker and increased detection rates. Performance metrics such as cumulative reward, detection frequency, episode length, and success-to-failure ratio highlight the strong influence of the defender’s visibility and response strategy on the attacker’s outcomes. This work contributes both a scalable simulation environment for modeling intelligent cyber threats and valuable insights into how APTs evolve against different defensive behaviors, supporting the development of smarter and more adaptive cybersecurity defenses.

Item Type: Thesis (Masters)
Subjects: Computer
Research
Research > Information Technology
Department: College of Computing and Mathematics > Information and Computer Science
Committee Advisor: Hammoudeh, Mohammad
Committee Members: Al Gobi, Waleed and Rahman, Md Mahfuzur
Depositing User: FATIMA ANIS (g202203080)
Date Deposited: 22 Jul 2025 07:06
Last Modified: 22 Jul 2025 07:06
URI: http://eprints.kfupm.edu.sa/id/eprint/143617