GROUPING ASSOCIATION RULES USING CLUSTERING TECHNIQUES IN BIG DATA

GROUPING ASSOCIATION RULES USING CLUSTERING TECHNIQUES IN BIG DATA. Masters thesis, King Fahd University of Petroleum and Minerals.

[img]
Preview
PDF (Mater Thesis)
Mohamed_Ali_Alasow_Master_Thesis.pdf - Accepted Version

Download (2MB) | Preview

Arabic Abstract

قو اعد ارتبا ط التقدين بين عنا صر البيا نات هي ضرو ي في اكتشاف المعرفة المخبأة في مجموعات البيانات. هنال العديد من قواعد خوارزميات التعدين الفعالة . تكمن المشكلة في العدد الكبير من القواعد التي يكتشفونها غالبًا . عدد كبير من القواعد تجعل اكتشاف المعرفة أمرًا صعبًا للغاية لأن العديد من القواعد يصعب فهمها أو تفسيرها أو تصورها . لتقليل عدد القواعد المكتشفة ، اقترح الباحثون أساليب مثل قواعد التعريف ، قواعد القواعد ، تجميع القواعد ، إلخ . مع ظهور عصر البيانات الضخمة (BIG DATA) يزداد تواتر مجموعات البيانات الضخمة وحجمها يوما بعد يوم. وبالتالي ، أصبح اكتشاف المعرفة الخفية من مجموعات البيانات هذه ضروريًا. حتي الآن تقتصر حلول العدد الكبير من قواعد association على القواعد الناتجة عن مجموعات البيانات التقليدية لأن تطبيقها على قواعد الأرقام الضخمة المكتشفة من مجموعات البيانات الكبيرة مكلف . لسد هذه الفجوة ، في هذه الرسالة ، نقترح خوارزمية تجميع قاعدة موازية تستند إلى MapReduce . علي حد علمنا ، هذا هو الحل الأول لمشكلة العدد الهائل من القواعد النا تجه عن مجموعات البيا نا ت الكبيره . قمنا بتنفيذ الخوارزمية المقترحة في Hadoop وأجرينا العديد من التجارب لدراسة أدائها. لقيا س أداء الخوارزميات المقترحة ، نستخدم الوقت المنقضي والتسريع والحجم والميزان. استخدمنا مجموعات البيانات المرجعية التي يصل حجمها إلى 4 جيجابايت. تظهر النتائج التجريبية أن الخوارزميات المقترحة لها أداء عالٍ .

English Abstract

Mining association rules between data items is essential in the discovery of knowledge hidden in datasets. There are many efficient association rules mining algorithms. The problem is with the large number of rules they often discover. % Large number of rules make the discovery of knowledge very challenging because too many rules are difficult to understand, interpret or visualize. To reduce the number of discovered rules, researchers proposed approaches such as meta rules, rules pruning, rules grouping, etc. With the advent of the era of big data, the frequency and size of big datasets is growing by the day; and thus, the discovery of hidden knowledge from these datasets is becoming essential. So far the solutions to the large number of association rules are limited to the rules generated from traditional datasets. They can't be applied to the huge number of rules discovered from big datasets. To bridge this gap, in this thesis, we are proposing a parallel rule grouping algorithm based on MapReduce. To the best of our knowledge, this is the first solution to the problem of huge number of rules generated from big datasets. We implemented the proposed algorithm in Hadoop and conducted many experiments to study its performance. To measure the performance of the proposed algorithm, we used elpased time, speedup, sizeup, and scaleup. We used benchmark datasets up to 4GB in size. The experimental results show that the proposed algorithm have high performance.

Item Type: Thesis (Masters)
Subjects: Computer
Department: College Of Computer Sciences and Engineering > Information and Computer Science Dept
Committee Advisor: Adem, Dr. Salahadin Adem Mohammed
Committee Members: Alfy, Dr. El-Sayed M. El-Alfy and Mahmood, Dr. Sajjad Mahmood
Depositing User: MOHAMED ALASOW (g201409240)
Date Deposited: 26 Jun 2019 04:46
Last Modified: 30 Dec 2020 13:33
URI: https://eprints.kfupm.edu.sa/id/eprint/140986