Adaptive Moving Target Defense Strategy Selection via Reinforcement Learning

Adaptive Moving Target Defense Strategy Selection via Reinforcement Learning. Masters thesis, King Fahd University of Petroleum and Minerals.

[img] PDF
Thesis.pdf
Restricted to Repository staff only until 22 December 2026.

Download (3MB)

Arabic Abstract

بغض النظر عن أي تهديدات موجودة في البيئة، فإن الدفاع التقليدي ضد الهدف المتحرك يخلق تغييرات دورية لعنصر الشبكة المحمي. وهذا يحمل عيبين كبيرين. أولاً، الاستهلاك غير الضروري لموارد الشبكة في الفترات التي لا يوجد فيها سلوك ضار. ثانيًا، إنه ليس مرنًا بما يكفي لتكييف استجابته مع التكتيكات والسلوكيات المختلفة للمهاجمين، مما قد يترك الشبكة معرضة لهجمات مستقبلية. تهدف دراسة البحث هذه إلى تعزيز كفاءة وتكييف الدفاع التقليدي ضد الهدف المتحرك من خلال استخدام التعلم المعزز العميق. في هذا العمل، قمنا بتطوير بيئة شبكة مخصصة لمحاكاة هجمات الشبكة، وهي مسح عنوان بروتوكول الإنترنت ومسح المنفذ وهجمات تعطيل المسار. تم استخدام تحسين السياسة القريبة لتدريب وكيل التعلم المعزز العميق على اختيار نهج الدفاع التقليدي ضد الهدف المتحرك الذي سيتم نشره بالطريقة الأكثر تكيفًا. ونتيجة لذلك، نجح الوكيل التكيفي في تقليل تأثير هجمات مسح عنوان بروتوكول الإنترنت ومسح المنفذ وتعطيل المسار من خلال تنفيذ استراتيجيات التعلم المعزز العميق. بالإضافة إلى ذلك، أظهر العميل قدرة على التكيف في نشر استراتيجية دفاع الهدف المتحرك بخلق تغييرات لعنصر الشبكة اعتمادًا على موقع وكثافة الهجوم، مما يعني تنفيذًا أكثر ذكاءً وكفاءة لدفاع الهدف المتحرك ، و تحسن كبير بخلاف التغييرات الدورية للهدف المتحرك.

English Abstract

Regardless of whether there are any threats in the environment, classical MTD modifies the defended network element periodically. This carries two significant disadvantages. Firstly, the unnecessary consumption of network resources occurs in periods when malicious behavior is not present. Secondly, the inability to adjust strategies to reflect the diverse tactics and behaviors of attackers leaves the network vulnerable to future attacks. The research study aims to improve the efficiency of MTD by creating a DRL agent that can dynamically choose and adjust MTD strategies upon observing threats in the network. In this work, we create a custom network environment for simulating network attacks, which include IP scanning, port scanning, and route disruption attacks. We employed PPO to train the DRL agent and utilized action masking to increase the convergence process. As a result, the adaptive agent successfully reduced the effect of IP scanning, port scanning, and route disruption attacks by implementing context-aware MTD strategies. Additionally, the agent demonstrated adaptability in implementing the MTD strategies based on the attack's position and intensity, resulting in a more intelligent and effective use of MTD that significantly outperforms static MTD.

Item Type: Thesis (Masters)
Subjects: Computer
Department: College of Computing and Mathematics > Computer Engineering
Committee Advisor: Mahmoud, Ashraf
Committee Co-Advisor: Al-shaer, Ehab
Committee Members: Almulhem, Ahmed and Mahmoud, Muhammad and Osais, Yahya
Depositing User: MAHA ALOSAIMI (g202212420)
Date Deposited: 23 Dec 2025 07:23
Last Modified: 23 Dec 2025 07:23
URI: http://eprints.kfupm.edu.sa/id/eprint/143787