Artificial Intelligence-based Secure Formation Maneuver Control of multi‑agent Cyber-Physical Systems with Guaranteed Performance

Artificial Intelligence-based Secure Formation Maneuver Control of multi‑agent Cyber-Physical Systems with Guaranteed Performance. PhD thesis, King Fahd University of Petroleum and Minerals.

[img] PDF
Maaruf thesis g201705070.pdf - Accepted Version
Restricted to Repository staff only until 24 December 2024.

Download (2MB)

Arabic Abstract

يعد التحكم في تكوين الأنظمة مجالًا بحثيًا جديدًا لم يتم التحقيق فيه بشكل كامل. القادة فقط لديهم معلومات حول المناورات. يتم تحديد تشكيل الأتباع بشكل فريد من خلال موقف القادة. يمكن تحقيق العديد من التشكيلات مثل الترجمة، والتدوير، والقياس، والقص، والعلاقة الخطية المتداخلة في وقت واحد بمساعدة مصفوفات الإجهاد ومبادئ التحول المتقارب. تتفاعل الأنظمة متعددة الوكلاء عبر إطار مادي إلكتروني حيث يتم تسهيل نقل المعلومات للحفاظ على تكوين الهدف وتجنب الاصطدامات. يعرض هذا التفاعل اللاسلكي الأنظمة المادية السيبرانية متعددة الوكلاء للهجمات السيبرانية الضارة. تستهدف هذه الهجمات في الغالب مستشعرات النظام أو مشغلاته أو قنوات الاتصال، مما قد يؤدي إلى تدهور التكوين المكتسب، وبالتالي يؤدي إلى فشل النظام بأكمله. لذلك، يعد ضمان أمان وأداء الأنظمة المادية السيبرانية متعددة الوكلاء أثناء مناورات التشكيل المتقارب أمرًا بالغ الأهمية. تقترح هذه الأطروحة التحكم المناسب والتعلم القائم على الذكاء الاصطناعي لمواجهة التهديدات التي تفرضها الهجمات السيبرانية. القضية الأولى التي تم بحثها في هذه الأطروحة هي استراتيجية التحكم المبنية على التعلم المعزز للأنظمة متعددة الوكلاء من الدرجة الثانية والمستمرة والتي تتعرض لهجمات إلكترونية مشغلة أثناء مناورات التشكيل المتقارب. في هذه الحالة، يتم إنشاء مؤشر أداء طويل المدى لتتبع أخطاء تتبع الأنظمة متعددة الوكلاء باستخدام هيكل القائد-التابع. من أجل تقريب الحل المثالي، والذي يصعب العثور عليه للأنظمة المعرضة للهجمات السيبرانية أثناء المناورات المتغيرة بمرور الوقت، يتم استخدام شبكة عصبية مهمة. يتم الحصول على بروتوكول التحكم الموزع، ويتم تقليل مؤشر الأداء على المدى الطويل، باستخدام شبكة عصبية فاعلة معززة بالإشارات الناقدة. تقوم الشبكات العصبية الناقدة للممثل بحساب الديناميكيات غير المعروفة وشدة الهجمات على مشغلات الأنظمة متعددة الوكلاء. يتم تطبيق وظائف Nussbaum لمعالجة هذه المشكلة نظرًا لأن الهجمات يمكن أن تؤدي إلى فقدان اتجاه التحكم. تبحث المشكلة الثانية في طريقة التحكم السريعة القائمة على التعلم المعزز في الوقت المحدد لمناورات التشكيل المتقارب الآمن للأنظمة متعددة الوكلاء غير الخطية من الدرجة الثانية المعرضة لهجمات خداع الاستشعار والتباطؤ الشبيه برد الفعل العكسي. الافتراضات الشائعة بأن مكاسب المدخلات معروفة، وأن ميل التباطؤ الشبيه برد الفعل العكسي يحده ثوابت معروفة، ويتم التخلص من المكاسب المتغيرة بمرور الوقت الناجمة عن هجمات الخداع بواسطة ثوابت معروفة. من خلال نظرية التقارب في الوقت المحدد وسطح وضع الانزلاق الطرفي السريع، يتم استخدام بنية التعلم المعزز للناقد والممثل لتوجيه المتابعين إلى مناورات تشكيل الهدف، ومواجهة هجمات خداع المستشعر، ومعالجة التباطؤ الذي يشبه رد الفعل العكسي للمشغل دون أي معرفة مسبقة عنهم. المسألة الثالثة هي تصميم نظام التحكم الخلفي الآمن الأمثل مع الأداء الموصوف لمناورة التشكيل المتقارب لـ MAS غير الخطية مع هجمات الخداع غير المعروفة وأخطاء المشغل. هدف التحكم، في هذه الحالة، هو التأكد من أن مناورات القائد والأتباع مرنة في حالة وقوع هجمات الخداع وأخطاء المشغل. علاوة على ذلك، يتم نشر وظائف الأداء المحددة للتأكد من أن أخطاء التتبع تقع ضمن مجموعة محددة مسبقًا أثناء الهجمات. تم الحصول على قوانين التحكم الأمثل للخلف من حل معادلة هاملتون-جاكوبي-بيلمان. ومع ذلك، يصعب الحصول على حل للمعادلة بسبب عدم خطية الأنظمة متعددة الوكلاء، وهجمات الخداع. تتم معالجة هذه المشكلة من خلال استخدام نهج التعلم المعزز باستخدام بنية المعرف-الممثل-الناقد. أما المبحث الرابع فيهدف إلى دراسة مناورة التشكيل التقاربي الآمن والتابع لمجموعة من المحركات الرباعية تحت تأثير الاضطرابات الخارجية وهجمات الخداع الاستشعاري وهجمات حقن المشغل. لضمان التشغيل الآمن للمحركات الرباعية مع الأخذ في الاعتبار حدودها المادية، تكون حالاتها الديناميكية مقيدة داخل منطقة تشغيل آمنة. ولضمان عدم انتهاك قيود السلامة، يتم استخدام وظيفة حاجز Lyapunov. ومن ثم، المناورة الجماعية للطائرات الرباعية وقدرتها على الصمود في مواجهة الهجمات السيبرانية المسألة الخامسة هي التحكم في مناورة التشكيل المتقارب المضاد للهجوم للأنظمة غير الخطية متعددة الوكلاء المعرضة لاضطرابات الخصومة. هنا، يتم استخدام الشبكة العصبية الاصطناعية كإطار ذكي لاكتشاف الهجمات الإلكترونية الضارة وتقديرها والتخفيف من حدتها. بعد ذلك، تم استخدام تقنية تحكم غير خطية تعتمد على البنية المتغيرة لتحقيق مناورة تشكيلية جماعية مرنة بين القائد والأتباع بالرغم من الهجمات. يتم تطبيق خوارزمية التحكم المقترحة على نظام متعدد الطائرات بدون طيار رباعية المحركات. حافظت المحركات الرباعية على مناوراتها الجماعية في ظل وجود اضطرابات معادية. يقترح العدد السادس استخدام خوارزمية اللعبة التفاضلية ذات المحصلة الصفرية لمعالجة مشكلة التحكم في مناورة التشكيل المتقارب لنظام متعدد الوكلاء من الدرجة الثانية يتعرض لهجمات المشغلات. في هذا المخطط، يتم التعامل مع سياسة التحكم الأمثل غير الموثوق بها وإشارات هجوم المشغل كفريقين متعارضين. يتم اشتقاق سياسات التحكم المثلى الموزعة بين القائد والتابع وسياسات التوهين للهجوم السيبراني من حل توازن ناش لمعادلة هاملتون-جاكوبي-إسحاق (HJI). تم تقدير حل معادلة HJI بمساعدة الشبكة العصبية الناقدة. يتم تعلم أوزان النظام الناقد عبر الإنترنت بناءً على مخطط البرمجة الديناميكية التكيفية (ADP).

English Abstract

Affine formation maneuver control of leader-follower multi-agent systems is a new research field that is yet to be fully explored. In this approach, only the leaders have information about the formation maneuvers. The affine formation maneuvers of the followers is uniquely determined by the position of the leaders. Several formation maneuvers such as translation, rotation, scaling, shearing, and collinearity can be realized simultaneously with the aid of stress matrices and the principles of affine transformation. Multi-agent systems are interacting via a cyber-physical framework where information transmission is facilitated to maintain the target formation and avoid collisions. This wireless interaction exposes the multi-agent cyber-physical systems to malicious cyber-attacks. These attacks mostly target the systems' sensors, actuators, or communication channels, which may lead to the deterioration of the acquired formation, and consequently lead to the failure of the entire system. Therefore, guaranteeing the security and performance of multi-agent cyber-physical systems during affine formation maneuvers is critical. This thesis proposes appropriate control and learning based on artificial Intelligence to counter the threats imposed by cyber-attacks. The first issue investigated in this thesis is the reinforcement learning-based control strategy for second-order continuous-time multi-agent systems subjected to actuator cyber-attacks during affine formation maneuvers. In this case, a long-term performance index is created to track the multi-agent systems’ tracking faults using a leader-follower structure. To approximate the ideal solution, which is challenging to find for systems vulnerable to cyber-attacks during time-varying maneuvers, a critical neural network is used. The distributed control protocol is obtained, and the long-term performance index is minimized, using an actor neural network strengthened with critic signals. The actor-critic neural networks calculate unknown dynamics and the severity of attacks on the multi-agent systems’ actuators. The Nussbaum functions are applied to address this issue since attacks can result in a loss of control direction. The second issue investigates the fast finite-time reinforcement learning-based control method for secure affine formation maneuvers of second-order nonlinear multi-agent systems subjected to sensor deception attacks and backlash-like hysteresis. The common assumptions that the input gains are known, the slope of the backlash-like hysteresis is bounded by known constants, and the time-varying gains induced by the deception attacks are bounded by known constants are eliminated. Through the theory of finite-time convergence and fast terminal sliding mode surface, the actor-critic reinforcement learning architecture is employed to steer the followers to the target formation maneuvers, counter the sensor deception attacks, and tackle the actuator backlash-like hysteresis without any prior knowledge about them. The third issue is the design of an optimized secure backstepping control with prescribed performance for affine formation maneuver of nonlinear MAS with unknown deception attacks and actuator faults. The control objective, in this case, is to ensure that the leader-follower maneuvers are resilient in the event of deception attacks and actuator faults. Moreover, prescribed performance functions are deployed to make sure the tracking errors are within a predefined set during the attacks. The optimal backstepping control laws are obtained from the solution of the Hamilton-Jacobi-Bellman equation. Nonetheless, the solution to the equation is difficult to obtain due to the nonlinearity of the multi-agent systems, and the deception attacks. This problem is tackled by employing a reinforcement learning approach using the identifier-actor-critic architecture. \\ The fourth issue aims to study the secure and safe leader-follower affine formation maneuver of a group of quadrotors under external disturbances, sensor deception attacks, and actuator injection attacks. To ensure the safe operation of the quadrotors considering their physical limitations, their dynamic states are constrained within a safe region of operation. To ensure that the safety constraints are not violated, a barrier Lyapunov function is employed. Then, the collective maneuvering of the quadrotors and their resilience against cyber-attacks are guaranteed using a new distributed sliding mode control and reinforcement learning. The fifth issue is the anti-attack affine formation maneuver control of nonlinear multi-agent systems subjected to adversarial disturbances. Here, an artificial neural network is employed as an intelligent framework to detect, estimate, and mitigate harmful cyber-attacks. Then, a nonlinear control technique based on the variable structure is utilized to achieve a resilient leader-follower collective formation maneuvering despite the attacks. The proposed control algorithm is applied to a system of multiple quadrotor UAVs. The quadrotors maintained their collective formation maneuvering in the presence of adversarial disturbances. The sixth issue proposes using the zero-sum differential game algorithm to address the affine formation maneuver control problem of a second-order multi-agent system subjected to actuator attacks. In this scheme, the distrusted optimal control policy and the actuator attack signals are treated as two opposing teams. The leader-follower distributed optimal control policies and the cyber-attack attenuation policies are derived from the Nash equilibrium solution of the Hamilton-Jacobi-Isaac (HJI) equation. The solution of the HJI equation is estimated with the aid of the critic neural network. The weights of the critic system are learned online based on the adaptive dynamic programming (ADP) scheme.

Item Type: Thesis (PhD)
Subjects: Systems
Research
Aerospace
Mechanical
Department: College of Engineering and Physics > Control and Instrumentation Engineering
Committee Advisor: El-Ferik, S.
Committee Co-Advisor: Saif, A.-W.A.
Committee Members: Khalid, M. and Mysorewala, M. F. and Al Dhaifallah, M. M
Depositing User: MUHAMMAD MAARUF (g201705070)
Date Deposited: 25 Dec 2023 06:44
Last Modified: 25 Dec 2023 06:44
URI: http://eprints.kfupm.edu.sa/id/eprint/142678