Privacy-Preserving & Adversarially Robust Federated Learning System: Secure Aggregation & Evasion Detection Approach

Privacy-Preserving & Adversarially Robust Federated Learning System: Secure Aggregation & Evasion Detection Approach. Masters thesis, King Fahd University of Petroleum and Minerals.

[img] PDF
ICS 610 - Thesis - Radical Rakhman Wahid.pdf - Accepted Version
Restricted to Repository staff only until 26 January 2027.
Available under License Creative Commons GNU GPL (Software).

Download (16MB)

Arabic Abstract

يُمكّن التعلّم الاتحادي (FL) التدريب التعاوني على بيانات طبية موزعة دون تجميع السجلات الخام في موقع مركزي، لكنه يظل عرضة لتسريب الخصوصية عبر عكس التدرّجات (gradient inversion) وللهجمات الخصومية التي تُضعف موثوقية النموذج. تقترح هذه الأطروحة إطار دفاع مزدوج للتعلّم الاتحادي يجمع بين التجميع الآمن القائم على مشاركة الأسرار الإضافية (SecAgg+) وبين كاشف ثنائي للمدخلات على جهة العميل (BID) لحماية سرّية البيانات وتحسين المتانة ضد هجمات التملّص في تصوير طبي في آنٍ واحد. في البداية يتم اختيار هياكل ShuffleNetV2 خفيفة الوزن من خلال تجارب مركزية على مجموعتي بيانات AMDNet23 وLC25000، ثم تُنشر ضمن التعلّم الاتحادي مع SecAgg+ وبدونه لقياس العبء الحوسبي وتأثيره على أداء التصنيف. تُظهر النتائج أن SecAgg+ يضيف فقط حوالي 1–4% إلى زمن التدريب مع الحفاظ على الدقة ودرجة macro-F1 بمستويات مماثلة للتعلّم الاتحادي القياسي عبر أعداد مختلفة من العملاء. وتحت هجمات طريقة إشارة التدرّج السريعة (FGSM) وDeepFool، تتعرّض النماذج المركزية والاتحادية لانخفاضات حادّة في الأداء عندما تلوّث العينات المُشوَّهة مجموعات بيانات العملاء. وعندما سُمِّم 50% من العملاء، خلال آخر 10 جولات تدريب، خفّضت FGSM الدقة مقارنة بخط الأساس غير المُهاجَم إلى ما بين 4% و7.5% وخفّضت macro-F1 إلى ما بين 5% و9%، بينما خفّضت DeepFool الدقة بمقدار 15%–20% وmacro-F1 بمقدار 15%–25%. بالإضافة إلى ذلك، لم يكن الأثر السلبي على الأداء مع 15% أو 30% من العملاء المُسمَّمين الذين كانت بياناتهم مولّدة باستخدام FGSM ذا دلالة كبيرة، في حين كان ذلك ملحوظاً إلى حدّ كبير مع DeepFool، رغم أن انخفاض الأداء لم يكن بحجم ما يحدث عند تسميم 50% من العملاء. ولمعالجة ذلك، يحقق كاشف BID المقترح، والمدرَّب على أمثلة من FGSM وDeepFool، أداءً مرتفعاً في الكشف، وعند دمجه على جهة العميل يقوم بفعالية بتصفية المدخلات الخصومية قبل التدريب المحلي. وفي التعلّم الاتحادي مع SecAgg+، يعيد BID الأداء تحت هجمات FGSM إلى مستويات قريبة من خطوط الأساس النظيفة، ويخفف بشكل ملحوظ أثر DeepFool، محافظاً على دقة وmacro-F1 ذات معنى سريرياً على كلتا مجموعتي البيانات. وبشكل عام، يُظهر النظام المقترح أن التجميع المحافظ على الخصوصية وكشف الهجمات الخصومية يمكن تحقيقهما معاً ضمن خط أنابيب عملي للتعلّم الاتحادي من أجل تحليل موثوق لصور طبية.

English Abstract

Federated learning (FL) enables collaborative training on distributed medical data without centralizing raw records, but it remains vulnerable to privacy leakage from gradient inversion and to adversarial attacks that degrade model reliability. This thesis proposes a dual-defense FL framework that combines additive secret sharing–based Secure Aggregation (SecAgg+) with a client-side binary input detector (BID) to simultaneously protect data confidentiality and improve robustness against evasion attacks in medical imaging. Lightweight ShuffleNetV2 backbones are first selected through centralized experiments on the AMDNet23 and LC25000 datasets, then deployed in FL with and without SecAgg+ to quantify computational overhead and the impact on classification performance. Results show that SecAgg+ introduces only about 1–4% additional training time while preserving accuracy and macro-F1 that are comparable to standard FL across client counts. Under Fast Gradient Sign Method (FGSM) and DeepFool attacks, both centralized and federated models suffer severe performance drops when perturbed samples contaminate client datasets. IWhen 50% of clients were poisoned, over the last 10 training rounds, FGSM reduced accuracy from the unattacked baseline to between 4% and 7.5% and macro-F1 to between 5% and 9%, while DeepFool reduced accuracy by 15%–20% and macro-F1 by 15%–25%. In addition, the negative impact on performance with 15% or 30% poisoned clients whose data were generated using FGSM was not significant, whereas for DeepFool it was quite significant, even though the performance drop was not as large as when 50% of clients were poisoned. To address this, the proposed BID, trained on FGSM and DeepFool examples, achieves high detection performance and, when integrated at the client side, effectively filters adversarial inputs before local training. In FL with SecAgg+, BID restores performance under FGSM attacks to near-clean baselines and substantially mitigates the impact of DeepFool, maintaining clinically meaningful accuracy and macro-F1 on both datasets. Overall, the proposed system demonstrates that privacy-preserving aggregation and adversarial detection can be jointly realized in a practical FL pipeline for trustworthy medical image analysis.

Item Type: Thesis (Masters)
Subjects: Computer
Systems
Research > Information Technology
Department: College of Computing and Mathematics > Information and Computer Science
Committee Advisor: Azzedin, Farag
Committee Members: Hassine, Jameleddine and Mahmood, Sajjad
Depositing User: RADICAL WAHID (g202319570)
Date Deposited: 26 Jan 2026 12:14
Last Modified: 26 Jan 2026 12:14
URI: http://eprints.kfupm.edu.sa/id/eprint/144055