On the Optimal Deployment of Deep Learning Neural Networks on Field Programmable Gate Arrays

On the Optimal Deployment of Deep Learning Neural Networks on Field Programmable Gate Arrays. PhD thesis, King Fahd University of Petroleum and Minerals.

[img] PDF (PhD Dissertation)
Dissertation_Shawahna.pdf
Restricted to Repository staff only until 15 February 2024.

Download (9MB)

Arabic Abstract

أثبتت الشبكات العصبية للتعلم العميق فعاليتها في مجموعة واسعة من مهام الرؤية الحاسوبية، مع أحدث النتائج التي تم الحصول عليها من خلال الهياكل المعقدة والعميقة التي تتطلب عمليات حسابية مكثفة وذاكرة كبيرة. في الماضي، مكنت وحدات معالجة الرسومات هذه المتطلبات الهائلة بسبب سرعتها الحسابية الكبيرة جداً. في الوقت الحاضر، شهدت مصفوفات البوابات المنطقية القابلة للبرمجة زيادة في الاهتمام من اجل تسريع استدلال الشبكات العصبية للتعلم العميق. ويرجع ذلك الى قدرتها على إنشاء تصاميم مخصصة بمستويات مختلفة من التوازي. علاوة على ذلك، توفر مصفوفات البوابات المنطقية القابلة للبرمجة أداء أفضل لكل واط مقارنة بتقنيات الحوسبة الأخرى مثل وحدات معالجة الرسومات، وهو مطلب ضروري لتطبيقات الشبكات العصبية للتعلم العميق على الطائرات بدون طيار وأجهزة إنترنت الأشياء التي تعمل بالبطاريات. ولكن، بدون التنفيذ الدقيق لنماذج الشبكات العصبية للتعلم العميق المعقدة اليوم، قد لا يتناسب التصميم مع مصفوفة البوابات المنطقية القابلة للبرمجة المستهدفة بسبب الموارد المنطقية المحدودة. بالإضافة الى ذلك، يجب ان توفر الأنظمة المستندة الى الشبكات العصبية للتعلم العميق الحد الأدنى من وقت الاستجابة والإنتاجية العالية بحيث يحدث اتخاذ القرار الصحيح في الوقت المناسب. في هذه الأطروحة، نستعرض التقنيات الحالية الحديثة لتسريع الشبكات العصبية للتعلم العميق على مصفوفات البوابات المنطقية القابلة للبرمجة ونقدم توصيات للاتجاهات المستقبلية التي من شأنها تبسيط استخدام المسرعات القائمة على مصفوفات البوابات المنطقية القابلة للبرمجة وتعزيز أدائها. بعد ذلك، نقدم عدة اعمال لتلبية متطلبات التنفيذ الفعال للشبكات العصبية التلافيفية. تهدف هذه الأعمال الى تحسين تنفيذ الشبكات العصبية التلافيفية على مصفوفات البوابات المنطقية القابلة للبرمجة من حيث الإنتاجية، وقت الاستجابة، كفاءة الطاقة، واستهلاك الطاقة. على وجه الخصوص، نقترح ونحقق في ثلاثة أعمال، (1) مسرع الشبكات العصبية التلافيفية ومنهجية تصميم ألية مصاحبة تستخدم الأدلة العليا للتقسيم الأمثل لموارد مصفوفة البوابات المنطقية القابلة للبرمجة المتاحة لتصميم عدة معالجات عالية الإنتاجية للطبقات التلافيفية، (2) إطار عمل لتكميم هياكل بيانات الشبكات العصبية التلافيفية المدربة مسبقاً بكفاءة الى أرقام منخفضة الدقة في تمثيل النقطة الثابتة، و (3) منهجية جديدة تعتمد على متطلبات الذاكرة لتمكين نشر الشبكات العصبية التلافيفية على أجهزة حوسبة الحافة محدودة الموارد مع الحفاظ على دقة النموذج. ينصب تركيز العمل الأول على تطوير إطار تسريع متعدد المعالجات للطبقات التلافيفية. تعتمد أداة التحسين المقدمة عدة خوارزميات للعثور على العدد الأمثل لمعالجات الطبقات التلافيفية المطلوبة، تكوينات الأجهزة الخاصة بها، وتعيين الطبقات التلافيفية للمعالجات التي تحقق الأداء الأمثل للنظام على مصفوفة البوابات المنطقية القابلة للبرمجة المستهدفة. نظهر ان عملنا المطور القائم على استخدام عدة معالجات مصممة باستخدام الخوارزميات يحقق إنتاجية اعلى بمقدار 1.31 – 2.37 مرة اكثر من احدث مناهج معالجات الطبقات التلافيفية الأحادية/المتعددة في تسريع أربع شبكات عصبية شائعة الاستخدام على لوحين من مصفوفات البوابات المنطقية القابلة للبرمجة المستخدمة بكثرة في الأعمال الأدبية السابقة. من ناحية أخرى، يوضح العمل الثاني فعالية أداة التكميم المقترحة في تحقيق المفاضلة بين الدقة والضغط مع تحسينات كبيرة في تكلفة الأجهزة وكفاءة الطاقة وتردد التشغيل. ويرجع ذلك أساساً الى استبدال الأداة المقترحة لعمليات الفاصلة العائمة باهظة الثمن بعمليات أعداد صحيحة أسرع وأكثر كفاءة في استخدام الأجهزة. على وجه الخصوص، تعمل ثلاث شبكات عصبية مكممه شائعة الاستخدام على تقليل متطلبات الذاكرة الإجمالية لنظيراتها كاملة الدقة بمقدار 7.16 و10.36 و6.44 مرة، مع انخفاض في الدقة بمقدار اقل من %0.95 و%0.95 و%1.99. بالإضافة الى ذلك، تستخدم احدى الشبكات العصبية المكمم %76 و%67 و%98 اقل من جداول البحث والدوائر القلابة ومعالجات الإشارات الرقمية، على التوالي، عند تنفيذها على مصفوفة البوابات الرقمية القابلة للبرمجة وتستهلك 455 ميلي واط اقل من تلك المصممة باستخدام نظام التكميم التقليدي 8 بت، على الرغم من ان تردد التشغيل لنموذج الشبكة العصبية المكمم اعلى بمقدار 1.35 مرة. في العمل الثالث، نوضح ان صيغ النزول المحسنة لأتمتة تعلم أطوال البت وطرق التكميم من خلال خوارزمية النزول التدريجي تمكن بنجاح من نشر نماذج عالية الدقة ومنخفضة زمن الاستجابة المصممة بشكل مثالي لبنية الأجهزة على مصفوفة البوابات المنطقية القابلة للبرمجة المستهدفة. على وجه التحديد، يصمم إطار العمل المقترح شبكة عصبية تلافيفيه تنفذ عمليات حسابية على أعداد صحيحة فقط مع نموذج بحجم 1.53 ميجابايت و0.97 ميجابايت من مساحة ذاكرة التنشيطات مع تحقيق دقة بنسبة %72.3، مما يحسن الدقة للتنفيذ المنشور مسبقاً بنسبة 4.3%.

English Abstract

Deep learning neural networks (DNNs) have demonstrated their effectiveness in a wide range of computer vision tasks, with state-of-the-art results obtained through complex and deep structures that require intensive computation and memory. In the past, graphic processing units (GPUs) enabled these breakthroughs because of their greater computational speed. Nowadays, field programmable gate arrays (FPGAs) have seen a surge of interest in accelerating DNN inference. This is due to their ability to create custom designs with different levels of parallelism. Furthermore, FPGAs provide better performance per watt than other computing technologies such as GPUs, which is a critical requirement for DNN applications on battery-powered unmanned aerial vehicles and Internet of things devices. However, without careful implementation of today’s complex DNN models, the design may not fit the target FPGA due to limited logic resources. Additionally, DNN-based systems have to provide minimum latency overhead and high throughput such that making the right decision happens in time. In this dissertation, we review recent existing techniques for accelerating DNNs on FPGAs and provide recommendations for future directions that will simplify the use of FPGA-based accelerators and enhance their performance. Then, we provide a couple of works for addressing the requirements for efficient implementations of convolutional neural networks (CNNs). These works optimize CNN implementation on FPGA platforms in terms of throughput, latency, energy efficiency, and power consumption. In particular, we propose and investigate three works, (i) a CNN accelerator and an accompanying automated design methodology that employs metaheuristics for optimal partitioning of available FPGA resources to design high-throughput multiple convolutional layer processors (CLPs), (ii) a framework, referred to as FxP-QNet, to efficiently quantize the weights and activations of pre-trained CNN-based models to low-precision numbers in fixed-point representation, and (iii) a novel end-to-end memory-driven methodology to enable the deployment of CNNs on resource-constrained edge devices while maintaining model’s accuracy. The focus of the first work is on the development of a Multi-CLP acceleration framework with parameterized Verilog HDL modules. The presented optimization tool adopts simulated annealing (SA) and tabu search (TS) metaheuristic algorithms to find the number of CLPs required, their respective hardware configurations, and the assignment of convolutional layers to CLPs that achieve the best system performance on a given target FPGA device. We illustrate that the implemented SA-/TS-based Multi-CLP achieves 1.31x - 2.37x higher throughput than state-of-the-art Single-/Multi-CLP approaches in accelerating AlexNet, SqueezeNet 1.1, VGG-16, and GoogLeNet architectures on Xilinx VC707 and VC709 FPGA boards. The second work, on the other hand, demonstrates the effectiveness of FxP-QNet in achieving the accuracy-compression trade-off with significant improvements in hardware cost, power efficiency, and operating frequency. This is mainly due to FxP-QNet’s replacement of expensive floating-point operations with faster, more hardware-efficient integer operations. In particular, the FxP-QNet-quantized AlexNet, VGG-16, and ResNet-18 reduce the overall memory requirements of their full-precision counterparts by 7.16x, 10.36x, and 6.44x, respectively, with less than 0.95%, 0.95%, and 1.99% accuracy drop. Additionally, the FxP-QNet-quantized ResNet-18 implemented on Xilinx Artix-7 FPGA uses 76%, 67%, and 98% fewer look-up tables, flip-flops, and digital signal processors, respectively, and consumes 455 mW less than those designed using the conventional 8-bit quantization scheme, even though the operating frequency of FxP-QNet-quantized ResNet-18 model is 1.35x higher. In the third work, we illustrate that the defined optimized gradient formulas to automate the learning of wordlengths and quantization methods through stochastic gradient descent successfully enable the deployment of high-accurate and low-latency MobileNet models that are perfectly tailored to the target hardware architecture on Xilinx Zynq-7020 FPGA edge device. Specifically, the presented framework designs a customized integer-only MobileNet-V2 with a 1.53MB model and 0.97MB of activations memory space while achieving top-1 validation accuracy of 72.3% on the ImageNet dataset, improving the top-1 accuracy of previously published implementation by 4.3%.

Item Type: Thesis (PhD)
Subjects: Computer
Engineering
Research
Department: College of Computing and Mathematics > Computer Engineering
Committee Advisor: Sait, Sadiq M.
Committee Members: El-Maleh, Aiman H. and Sheltami, Tarek R. and Ahmed, Moataz A.
Depositing User: AHMAD SHAWAHNA (g201206920)
Date Deposited: 16 Feb 2023 05:47
Last Modified: 16 Feb 2023 05:47
URI: http://eprints.kfupm.edu.sa/id/eprint/142340