Efficient Resource Provisioning for Big Data with Privacy and Security

Efficient Resource Provisioning for Big Data with Privacy and Security. Masters thesis, King Fahd University of Petroleum and Minerals.

[img] PDF
MS Thesis - Heba Abdullah Aljabrine.pdf
Restricted to Repository staff only until 26 January 2027.

Download (9MB)

Arabic Abstract

توفر الحوسبة الموزعة بنية تحتية قابلة للتوسع تعطي انطباعا بوجود موارد حوسبية شبه غير محدودة، مما يجعلها جاذبة لمجموعة واسعة من التطبيقات التي تعتمد على البيانات الضخمة. إلا أن هذا النموذج يثير مخاوف كبيرة تتعلق بخصوصية البيانات ويؤثر سلبا على ثقة المستخدمين، نظرا لتنفيذ العمليات الحسابية المطلوبة على أجهزة بعيدة بدلا من الأجهزة المحلية، مع ضرورة نقل البيانات عبر قنوات الاتصال. لذلك، يصبح من الضروري تحقيق توازن فعال بين الكفاءة الحسابية والحفاظ على الخصوصية. في هذه الرسالة، نقترح إطارا ذكيا قادرا على تصنيف البيانات النصية إلى فئتين، بيانات خاصة وبيانات عامة، مما يتيح توجيها واعيا بالسياق لمهام معالجة البيانات. حيث تعالج البيانات الخاصة محليا لحماية خصوصية المستخدم، في حين يتم إرسال البيانات العامة إلى خوادم سحابية أو بعيدة ذات قدرات حوسبية عالية لتنفيذ التحليلات كثيفة الموارد. تهدف هذه الاستراتيجية الانتقائية، بالاعتماد على تقنيات فعالة في تعلم الآلة، إلى تحقيق توازن بين الخصوصية، وزمن الاستجابة، وكفاءة استغلال الموارد. استكشفنا نماذج قائمة على بنية المحولات، وبشكل خاص نموذج ديستيل بيرت، الذي أظهر أداء قويا وحقق دقة بلغت ٪٩٩٫٩٨ في تصنيف البيانات إلى خاصة وعامة. كما قمنا بدمج إطارنا المقترح للحفاظ على الخصوصية مع نموذج التعلم الاتحادي، حيث يتم تصنيف البيانات النصية الخام إلى بيانات خاصة أو عامة، مما يتيح معالجة المحتوى الحساس محليا ومعالجة المحتوى غير الحساس على الخادم. حقق نموذج كشف الرسائل غير المرغوب فيها دقة بلغت ٪٩٨٫٨٣. وتظهر نتائج التجارب أن البيانات النصية الحساسة يمكن أن تبقى على جهاز المستخدم، في حين يتمكن الخادم من معالجة الرسائل العامة بكفاءة عالية، مع تحقيق دقة واستجابة مناسبة للتطبيقات الفورية في الزمن الحقيقي.

English Abstract

Distributed computing offers a scalable infrastructure that gives the impression of virtually unlimited computing resources, attracting a wide range of applications using big data. However, it raises significant concerns regarding data privacy and risks user trust due to making the required computation on a remote machine (rather than on a local machine) by transmitting data over communication channels. So, it is crucial to balance computational efficiency with effective privacy preservation. In this thesis, we propose an intelligent framework capable of classifying text data into private and public categories, thereby enabling context-aware routing of data processing tasks. Specifically, private data is processed locally to safeguard user privacy, while public data is offloaded to powerful cloud or remote servers for resource-intensive analytics. This selective processing strategy using an efficient machine learning strategy seeks to balance privacy, latency, and efficient resource utilization. We have explored Transformer-based models, specifically DistilBERT, that show strong performance achieving 99.98\% accuracy in private-public classification. We have also integrated our privacy-preserving framework with the Federated Learning (FL) paradigm that classifies raw data as private or public, facilitating local processing of sensitive content and server-based processing of non-sensitive content. Using the developed framework and Federated Averaging (FedAvg) algorithm, the SMS spam detection model achieves 98.83\% accuracy.The experiment results show that sensitive text can remain on the client while the server can efficiently handle public messages, delivering high accuracy and responsiveness suitable for real time deployment.

Item Type: Thesis (Masters)
Subjects: Computer
Research
Department: College of Computing and Mathematics > Information and Computer Science
Committee Advisor: Rahman, Md Mahfuzur
Committee Members: Alam Khan Musa Khan, Fakhri and Mahmood, Sajjad
Depositing User: HEBA ALJABRINE (g202213240)
Date Deposited: 26 Jan 2026 12:12
Last Modified: 26 Jan 2026 12:12
URI: http://eprints.kfupm.edu.sa/id/eprint/144051