OPTIMIZING GPU-ACCELERATED DATA PROCESSING FRAMEWORKS FOR SCALABLE DEEP LEARNING

OPTIMIZING GPU-ACCELERATED DATA PROCESSING FRAMEWORKS FOR SCALABLE DEEP LEARNING. Masters thesis, King Fahd University of Petroleum and Minerals.

[img] PDF (Master Thesis)
Hamed Al-Mehdhar MS_Thesis V05 30-01-2025.pdf - Accepted Version
Restricted to Repository staff only until 2 February 2026.

Download (6MB)

Arabic Abstract

في السنوات الأخيرة، أثبت التعلم العميق فعاليته في معالجة مجموعة واسعة من التطبيقات، متفوقًا على البدائل التقليدية ذات الطابع الحتمي والمصممة يدويًا. نظرًا للاعتماد على كميات هائلة من البيانات لاستخدامها من قِبل نماذج التعلم العميق أثناء التدريب لتحقيق نتائج دقيقة، يمكن أن تؤثر المعالجة المسبقة لهذه البيانات بشكل كبير على دورة حياة نموذج التعلم العميق. تُعد معالجة البيانات المسبقة مرحلة أساسية في أي نموذج من نماذج التعلم العميق، خاصة أثناء مرحلة التدريب، حيث يمكن أن تؤثر على دقة النموذج ووقت جاهزيته للاستخدام. أدى الاحتياج إلى تحسين عمليات معالجة البيانات المسبقة إلى قيام شركة إنفيديا بتطوير "رابيدز"، وهي مجموعة من المكتبات البرمجية المتخصصة في مهام تحليل ومعالجة البيانات، مستفيدةَ وحدة معالجة الرسومات لتسريع هذه المهام. "كو دي إف" هي مكتبة برمجية ضمن مجموعة "رابيدز" تُستخدم بشكل أساسي في معالجة البيانات المجدولة. وتعمل أيضاً كوحدة بناء أساسية لمجموعة من المكتبات البرمجية لتحقيق أداء مُسرَّع باستخدام وحدة معالجة الرسومات. هذا يجعل من "كو دي إف" مرشحًا ممتازًا للعمل على تحسين أداء هذه المكتبة البرمجية، حيث يمكنها تبسيط عملية تطوير وتسريع جاهزية نماذج التعلم العميق. تقدم هذه الرسالة العلمية عدة إسهامات وعمليات تحسين جديدة لمكتبة "كو دي إف" ، مع التركيز على تحسين أدائها وقابليتها للتوسع. تركز هذه التحسينات على عملية تحميل البيانات، حيث قد تختلف إجراءات المعالجة المسبقة من نموذج إلى آخر، ولكن جميع النماذج يجب أن تبدأ بتحميل البيانات. تشمل التحسينات المُنفذة تطوير إصدار جديد من مكتبة "كو دي إف" يدعم استخدام وحدات معالجة رسومات متعددة، وتحسين عبء العمل الذي يمكن لـ "كو دي إف" معالجته، وتعزيز الأداء في تنفيذ عمليات معالجة البيانات، بالإضافة إلى تحسين الاستفادة الشاملة من الموارد في الأنظمة المستخدمة لمهام الذكاء الاصطناعي بشكل عام. تشمل التحسينات دعم المعالجة باستخدام وحدات معالجة الرسومات متعددة، استراتيجية ديناميكية لإدارة الذاكرة، تحميل البيانات بطريقة تزامنية عبر أكثر من نواة معالجة، والاستفادة المثلى من معدل نقل البيانات المتاح لوحدات الإدخال/الإخراج. في التحسينات على مستوى النظم التي من الممكن أن تستفيد من دعم عملية المعالجة باستخدام وحدات معالجة الرسومات المتعددة، تُظهر أفضل الحالات زيادة قدرها 3.09 في كمية البيانات التي يمكن معالجتها وتقليص وقت التنفيذ بنسبة 26 بالمئة مقارنة بالنسخة الاصلية لمكتبة "كو دي إف". أما في حالة النظم التي تعمل باستخدام وحداة معالجة رسومات مفردة، فإن التحسينات المطبقة أدت إلى زيادة في كمية البيانات التي يمكن معالجتها بنسبة 65 بالمئة وتقليص وقت التنفيذ بنسبة 13 بالمئة مقارنة بالنسخة الاصلية لمكتبة "كو دي إف". النسخة المطورة التي تعمل تستفيد من دعم عملية المعالجة باستخدام وحدات معالجة الرسومات المتعددة فإن أفضل الحالات التي تم تسجيها في هذا العمل أوضحت سرعة عالية في التنفيذ حيث أن المعالجة في هذه الحالة أسرع بمقدار 2.59 مرة مقارنةً بالنسخة التي تعمل باستخدام وحدة معالجة رسومات مفردة، مع قدرة هذه النسخة على معالجة ضِعف كمية المعلومات. أسفرت النسخ المحسّنة عن تحسين أداء "كو دي إف" وتحسين قابلية هذه المكتبة البرميجة للتوسع، مما مكّن من توسيع نطاق الاستفادة من تسريع وحدة معالجة الرسومات لتطوير وتسريع جاهزية نماذج التعلم العميق في الأجهزة المتاحة بشكل شائع.

English Abstract

In recent years, deep learning has proven effective in tackling a wide range of applications surpassing conventional deterministic, handcrafted alternatives. Given the demand for immense amounts of data to be used by deep learning models during training to produce accurate results, preprocessing such data can greatly affect the deep learning model lifecycle. Data preprocessing is a primary stage in any deep learning model, especially during training, as it can impact a model’s accuracy and deployment time. The need for streamlined data preprocessing led NVIDIA to come up with RAPIDS, which is a suite of libraries specialized in data analytics tasks leveraging GPU Acceleration. cuDF is a library within RAPIDS that is used primarily for data preprocessing. It also acts as a backbone for other libraries to achieve GPU-accelerated performance. This makes cuDF a great candidate for optimization as it can streamline the development and deployment of deep-learning models. This thesis presents several novel contributions and optimizations to cuDF, focusing on improving its performance and scalability. The focus of those optimizations is on data loading as preprocessing routines may differ from one model to another, yet all models must start with data loading. The implemented optimizations include developing a novel version of cuDF that supports multi-GPU execution, improving the workload that can be handled by cuDF, improving its performance in executing data manipulation operations, and improving the overall utilization of resources in systems used for machine learning tasks in general. The optimizations include multi-GPU support, a dynamic memory management strategy, streamed data loading with kernel execution, and the optimal utilization of I/O bandwidth. On the system-wide optimization that utilizes multi-GPU support, the best-case scenarios yield a 3.09X increase in the data loading capacity and a 1.26X execution time speedup against the original implementation of cuDF. Meanwhile, the core optimizations to cuDF running on a single GPU offer a 1.65X increase in data loading capacity and faster execution time by 13%. The version supporting multi-GPU execution stands to gain a substantial 2.59X faster execution over the optimized version of cuDF, with a 2X increase in the data loading capacity it can handle. The optimized versions produced improved cuDF performance and scalability, allowing democratizing GPU acceleration for deep learning model development and deployment on commonly available hardware.

Item Type: Thesis (Masters)
Subjects: Computer
Department: College of Computing and Mathematics > Computer Engineering
Committee Advisor: Khan, Ayaz
Committee Members: Elrabaa, Muhammad and Khan, Shujaat
Depositing User: HAMED AL-MEHDHAR (g200925210)
Date Deposited: 09 Feb 2025 06:30
Last Modified: 09 Feb 2025 06:30
URI: http://eprints.kfupm.edu.sa/id/eprint/143276