A PARALLEL AND DISTRIBUTED FRAMEWORK FOR IMPLEMENTING BACK PROPAGATION ALGORITHM IN BIG DATA

A PARALLEL AND DISTRIBUTED FRAMEWORK FOR IMPLEMENTING BACK PROPAGATION ALGORITHM IN BIG DATA. Masters thesis, King Fahd University of Petroleum and Minerals.

[img] PDF (Part-1)
Thesis_200504030_1-64.pdf - Submitted Version
Restricted to Repository staff only until 30 December 2020.

Download (6MB)
[img] PDF (Part-2)
Thesis_200504030_65-end.pdf - Submitted Version
Restricted to Repository staff only until 30 December 2020.

Download (8MB)

Arabic Abstract

في الآونة الأخيرة و مع ظهور البيانات الضخمة و إنترنت الأشياء تم جمع كميات كبيرة من البيانات. هذه البيانات الضخمة أضافت تحديات كبيرة لخوارزميات الشبكة العصبية التسلسلية ذات الانتشار الخلفي. فقد إنخفضت كفاءة هذه الخوارزميات بشكل كبير فأصبحت بطيئة للغاية و تأخذ وقتاً طويلاً عند إستخدامها في معالجة البيانات الضخمة.. و بالرغم من ظهور الحوسبة المتوازية والموزعة كأحد الحلول إلا أن معظم الحلول المتوفرة حالياً تعمل على مبدأ المفاضلة بين كفاءة الخوارزمية و دقتها، و من أكبر التحديات التي تواجه هذه الحلول هي أن مرحلة التدريب فيها لا تزال تمثل عنق الزجاجة، لإرتباطها بعمليات حسابيه معقده ، لذلك فإن هناك حاجة ماسة إلى حلول جديدة تعمل على تحسين أداء هذه الخورزميات عند تطبيقها في مجال البيانات الضخمة. يعتمد الحل المقدم من قبلنا على منهجية عمل تجمع أدواتها في إطار عمل موحد يعمل على تحسين أداء خوارزمية الشبكة العصبية ذات الانتشار الخلفي فيما يتعلق بالدقة و إنقاص وقت التدريب معاً وذلك في مجال البيانات الضخمة. يتكون إطار العمل المقدم من مكونين أساسيين يعملان على إطار العمل إسبارك و الذي يعمل بدوره تحت إطار العمل هادووب. يقوم المكون الأول بتقسيم البيانات وتوزيعها بين كتلة الشبكة الغنقودية لهادووب، ومخرجات هذا المكون هي درجة فعالية الطبقة الأخيرة من مخرجات خوارزمية الشبكة العصبية ذات الانتشار الخلفي والتسميات الفعلية المقابلة لها. أما المكون الثاني فيقوم بتنفيذ خوارزمية المتغيرات المتعددة المتوازية للانحدار الخطي و ذلك بإستخدام طريقة تحليل المصفوفة كيو أر المثبته في الجبر الخطي، حيث يقوم هذا المكون بتعيين درجات الفعاليه الصحيحة التي ينتجها المكون الأول للمتغيرات المستقلة لخوارزمية الانحدار الخطي المتعددة وتوقع المخرجات النهائية. لتقييم أداء إطار العمل المقدم من قبلنا بنيت ثلاث نماذج لهذا الغرض وهي منست، هيغز، ومولكيولر كما تم تطبيق إطار العمل ديست بليف من قوقل وذلك لهدف المقارنة لتقييم اأداء، حبث أظهرت النتائج التجريبية لتقييم أداء إطار العمل أنه عند البدءً بـ 4 أحجام متوازٍية من البيانات وزيادة نطاقها باستخدام أحجام مختلفة من البيانات المتوازية تتراوح بين 8 و 20 و 40 فإن إطار العمل المقدم من قبلنا يكسب 37% و49% و 54% زيادةً في السرعة وذلك بإستخدام النموذج منست بينما يكتسب إطار العمل ديست بليف على 35% و 41% و 40% على التوالي. وبزيادة أحجام البيانات المتوازية إلى أكثر من 20 تبدأ سرعة إطار العمل ديست بليف في الإنخفاض بينما يستمر أداء عمل إطار العمل المقدم من قبلنا في الثبات. أما النماذج الأكبر حجماً والتي تحيتوي على أحجام أكبر من البيانات ً مثل هيغز و مولكيولر فهي تكسب ما مجموعه 48% تقريباً. بالإضافة إلى ذلك فإنه بإستخدام إطار العمل المقدم من قبلنا فإن متوسط دقة التصنيف تزيد بمقدار 3% ألى 4% مقارنة بإطار العمل ديست بليف. بشكل عام فإن إطار العمل المقدم من قبلنا قابل للتوسع و الزيادة يشكل جيد مع الإحتفاظ بتقديم أداء أفضل من ناحية السرعة و الدقة مقارنةً بأطارات العمل الأخرى.

English Abstract

Recently, with the advent of Big Data and IoT, big volume of data is collected. This massive data brings great challenges to BPNN algorithm. Classical sequential algorithms of BPNN are insufficient to handle these big data sets. Both time and space efficiency of these algorithms decrease dramatically when addressing big data. That is why parallel and distributed computing are used instead. However, most of the current BPNN parallel solutions make trade-off between algorithm efficiency and accuracy. The main limitations of these solutions are, they are still computationally expensive and the training phase is still a bottleneck. So, in order to solve these problems, a new parallel and distributed solutions are needed. Our framework improves the performance of BPNN algorithm with respect to accuracy and training execution time in the context of big data. It consists of two components running under Spark on top of Hadoop. The first component partitions the data and distributes the framework model among Hadoop cluster nodes. The output of this component is the activation score of the last layer of BPNN and its corresponding actual labels. The second component implements parallel multivariate linear regression algorithm using linear algebra QR matrix decomposition method. It maps the correct activation scores produced by the first component to the independent variables of the multiple linear regression algorithm and predicts the final framework output. Mnist, Higgs, and molecular models were built to evaluate this framework. Our approach increases the average classification accuracy by 3-4\% compared to DistBelief model. In general, our framework scaleup is very well as it requires less computation time and fewer network traffic compared to other models.

Item Type: Thesis (Masters)
Subjects: Computer
Systems
Divisions: College Of Computer Sciences and Engineering > Information and Computer Science Dept
Committee Advisor: Mohammed, Salahaldin A.
Committee Members: Hassan, Rafiul and El-Basuny, Tarek H.
Depositing User: ISMAIL ABDELGADER (g200504030)
Date Deposited: 01 Jan 2020 13:46
Last Modified: 01 Jan 2020 13:46
URI: http://eprints.kfupm.edu.sa/id/eprint/141404