FPGA ACCELERATION OF STENCIL-BASED COMPUTATIONS

FPGA ACCELERATION OF STENCIL-BASED COMPUTATIONS. Masters thesis, King Fahd University of Petroleum and Minerals.

[img] PDF
thesis_alhussain_eprint.pdf
Restricted to Repository staff only until 3 January 2025.

Download (4MB)

Arabic Abstract

العمليات الحسابية المقولبة (Stencil-based computations) تستخدم بشكل واسع في مجال الحوسبة فائقة الأداء. هذا النوع من العمليات يمكنها الاستفادة من الحوسبة المتوازية، لكن وفي المقابل العمليات الحسابية المقولبة لديها تأثير سيء على الذاكرة بسبب كثرة استخدامها للذاكرة مقارنة بعدد العمليات الحسابية التي تقوم بها. الكثير من الباحثين حاولوا التغلب على الصعوبات التي يواجهونها في هذه العمليات على منصات مختلفة. من بين هذه المنصات، تبرز أجهزة ال(FPGA) لمرونة عتادها وكفاءة استخدامها للطاقة لكنها تعاني من شح مواردها العتادية وضعف ذواكرها مما يضع قيوداً على حجم البيانات التي يمكن معالجتها عليها. هذه المشكلة يمكن حلها بتقسيم البيانات إلى اجزاء أصغر يمكن معالجتها على ال(FPGA). هذه الرسالة تقدم إطاراً (framework) لمعالجة العمليات الحسابية المقولبة. هذا الإطار يستخدم أنابيب التجزئة (pipeline) ليداخل عمليات نقل البيانات مع عمليات معالجتها. استطاع هذا الإطار الوصول إلى سرعة 36GB/s باستخدام (Intel’s Stratix 10 SX Development Board ). هذا الجهاز تمت صناعته باستخدام تقنية 7 نانومتر. الأداء الذي قدمه هذا الإطار يعادل تقريبا 43 نواة من معالج (Haswell) الذي تمت صناعته بتقنية 22 نانومتر ويعادل تقريبا 13 نواة من معالج (Milan-x) الذي تمت صناعته بتقنية 7 نانومتر. وقد حقق الإطار أيضا كفاءة طاقة تعادل 1.32 W/GB/sوالني تمثل 70% من كفاءة الطاقة لمعالج الرسوميات (NVIDIA A100) والذي يحتوي على 6912 نواة وتمت صناعته بتقنية 7 نانومتر.

English Abstract

Stencil computations are widely used in many High Performance Computations (HPC) applications. This type of computations shows a great potential for parallelism making them especially appealing in the context of parallel computing. However, they suffer from large memory footprint, low arithmetic intensity, and irregular data access patterns. Many attempts were done in the literature to overcome these challenges using different platforms. Among these platforms, the FPGAs which are known for their hardware configurability and power efficiency. FPGAs, however, suffer from limited resources and memory that put restriction on the size of stencil data that could be processed. A tiling technique should be incorporated to alleviate this restriction. In this thesis, a pipelined FPGA-CPU stencil framework is introduced. This framework aims to overlap the tiling process in CPU with memory transfers and stencil computation in the FPGA. Experimental results show that this framework achieved a throughput of 36 GB/s using Intel’s Stratix 10 SX Development Board. The FPGA was fabricated using a relatively 14 nm technology. This performance is equivalent to that of ~43 Haswell (fabricated in a 22 nm technology) cores or ~13 Milan-x (fabricated in a 7 nm technology) cores. In terms of power efficiency, this framework achieved 1.32 W/GB/s which represents 70% of the power efficiency of NVIDIA A100 GPU (with 6,912 CUDA cores fabricated in a 7nm technology) implementation. Additionally, it was demonstrated that the developed framework supports the utilization of two FPGA devices in parallel with 60% reduction in execution latency.

Item Type: Thesis (Masters)
Subjects: Computer
Engineering
Department: College of Computing and Mathematics > Computer Engineering
Committee Advisor: Elrabaa, Muhammad
Committee Members: Mudawar, Muhamed and Tabakh, Abdulaziz and Khan, Ayaz
Depositing User: ALHUSSAIN IBRAHIM (g201475840)
Date Deposited: 04 Jan 2024 07:49
Last Modified: 04 Jan 2024 07:49
URI: http://eprints.kfupm.edu.sa/id/eprint/142733