KFUPM ePrints

Adopting QoS Real-Time DCPS Models and Other Reliability Measures on High Performance and Grid Computing

l Adopting QoS Real-Time DCPS Models and Other Reliability Measures on High Performance and Grid Computing. PhD thesis, King Fahd University of Petroleum and Minerals.

[img]PDF (Dissertation) - Accepted Version
2059Kb

Arabic Abstract

زاد الإهتمام في الاونة الأخيرة بايجاد الطرق الفعاّلة لزيادة الإعتمادية في تشغيل البرامج المتوازية على الحاسبات فائقة السرعة. حيث أنه تقتصر تقنيات الحاسبات فائقة السرعة حاليا بالتركيز على سرعة الأداء - ومن غير الاهتمام الكامل بجودة الخدمة أو الاعتمادية - مثل اعادة تشغيل البرامج تلقائيا عند حدوث الأعطال أو اضافة موارد مساعدة عند الحاجة. ومن ناحية أخرى، تعتبر أنظمة "النشر-والإشتراك" من أفضل النظم المتوافقة والمطبقة لجودة الخدمة والإعتمادية في نقل البيانات لتطبيقات المعالجة الموزعة كبرامج النظير-للنظير (أو ما يعرف بالند - للند). والجدير بالذكر أن مصطلحات وقوانين أنظمة "النشر- والإشتراك" الرئيسية، وكذلك البنية التحتية لها، هي نفسها الموجودة في مجال الحاسبات فائقة السرعة، مع اختلاف المهام. في هذه الرسالة، نقدم بحثا شاملا لإدماج جودة الخدمة والاعتمادية في مجال الحسابات الفائقة السرعة وبطبقاتها المختلفة. كما قمنا في هذا البحث بتقييم ومقارنة فعالية الجودة والإعتمادية المضافة ومدى تأثيرها على الأداء عند تطبيقها في مجال الحاسبات فائقة السرعة. تستنتج هذه الدراسة بأن تطبيق جودة الخدمة والاعتمادية في مجال الحسابات الفائقة السرعة قد يضيف حملا اضافيا في بعض التطبيقات التي تعتمد على التواصل الشبكي بشكل كبير، ولكن قد توفر سرعة مضاهية للتطبيقات التي تعتمد بشكل رئيسي على المعالجة المركزية. وفي كلا الحالتين، فإن تطبيق جودة الخدمة يتيح لمستخدمي الحاسبات الفائقة السرعة الخيار باضافة الإعتمادية والتحكم بجودة الخدمة، وخصوصا عندما يكون وجودها مهماً كما في تنفيذ بعض التطبيقات التي تستغرق وقتا طويلا عند تشغيلها على الحاسبات الفائقة السرعة.

English Abstract

In recent years, we have witnessed a growing interest in improving the reliability when running parallel batch jobs on the High Performance Computing (HPC) environments. However, existing distributed memory HPC systems do not provide proper quality of service (QoS) controls and reliability features because of two limitations. First, standard communication libraries such as Message Passing Interface (MPI) and Parallel Virtual Machine (PVM) do not provide means for applications to specify service quality for computation and communication. Secondly, modern high-speed interconnects such as Infiniband, Myrinet and Quadrics are optimized for performance rather than fault-tolerance and QoS control. On the other hand, Data-Centric Publish-Subscribe (DCPS) model, which is the core of Data Distribution Service (DDS) systems, defines standards that enable applications running on heterogeneous platforms to control various QoS policies in a net-centric system. Notably, a number of DDS standards are comparable to those for High Performance Computing (HPC) systems. In this research, we present a comprehensive survey of the studies exploring the reliability factors of distributed computing in general and the Real Time Publish-Subscribe (RTPS) models for HPC and Grid computing in particular. We then investigate the QoS and reliability measures on the different HPC layers, such as the high speed interconnects and the diskless HPC. Finally, we present our model of incorporating DDS QoS and reliability controls into HPC. Our results show that DDS integration into HPC adds considerable overheard in terms of performance and network utilization when the application is mainly communication-bound, while the performance is comparable to those MPI-based applications when the program is computation-bound. In both cases, the solution is a viable option for those applications in which QoS is considered a priority, or for those HPC batch jobs that would run on commodity hardware, where the probability of failure is not negligible.



Item Type:Thesis (PhD)
Subjects:Computer
Divisions:College Of Computer Sciences and Engineering > Computer Engineering Dept
Committee Advisor:Sait, Sadiq
Committee Co-Advisor:Abdel Aal, Radwan
Committee Members:Al-Mulhem, Mohammed and Sheltami, Tarek and El-Maleh, Aiman
ID Code:138597
Deposited By:RAID ABDALLAH AL-SHAIKH (g199607190)
Deposited On:13 Mar 2012 08:58
Last Modified:13 Mar 2012 08:58

Repository Staff Only: item control page