A Novel Iterative non-Deterministic Algorithm for the Data Clustering Problem

A Novel Iterative non-Deterministic Algorithm for the Data Clustering Problem. Masters thesis, King Fahd University of Petroleum and Minerals.

[img]
Preview
PDF
A_Novel_Iterative_non-Deterministic_Algorithm_for_the_Data_Clustering.pdf

Download (1MB) | Preview

Arabic Abstract

الإسم: أحمد محمد البدوي عبدالساتر عنوان الرساله: خوارزميه تكراريه غير متوقعه لحل مشكلة تجميع البيانات التخصص: هندسة الكمبيوتر تاريخ الدرجة: شعبان 1438 - مايو 2017 تجميع البيانات هو طريقة التصنيف غير الخاضعة للرقابة والتي لديها تطبيقات واسعة النطاق في التعرف على الأنماط والتعلم الآلي. فهي تقوم بتقسيم البيانات غير المصنفة في مجموعات مختلفة في عملية التجميع، بحيث تكون عناصر البيانات التي تنتمي إلى نفس المجموعة متشابهة في السمات مع بعضها البعض، وعناصر البيانات التي تنتمي إلى مجموعات مختلفة تختلف عن بعضها البعض في السمات. أكثر خوارزميات التجميع شعبيةً هي خوارزمية النقطة المركزية الأقرب. ومع ذلك فإن نوعية الحل في هذه الخوارزمية تعتمد على المتوسط الحسابي وهي أكثر تأثراً بالحل الأولي. ويتم تحديد جودة التجميع عن طريق مؤشر الصلاحية كمجموع الخطأ التربيعي . يقترح هذا العمل خوارزميه مبنيه على خوارزمية محاكاة التلدين المتطورة المستوحاة من علم الفيزياء لحل مشكلة التجميع. وفيما يلي الخصائص الرئيسية للخوارزمية المقترحة: '1' اختيار بعض عناصر البيانات استنادا إلى سماتها. '2' قياس الجوده إستناداً إلى خطأ متوسط الكميات المربع . '3' الطفرة عن طريق تغيير سمات عناصر البيانات المختارة. تمت مقارنة الخوارزمية المقترحة مع إحدى عشرة خوارزمية تحسين حديثة وهي خوارزمية النقطة المركزية الأقرب ،خوارزمية البحث العشوائي, الخوارزمية الجينية ، خوارزمية محاكاة التلدين، خوارزمية مستعمرة النمل، خوارزمية عسل النحل ، خوارزمية أسراب الطيور، خوارزمية بحث الجاذبية ، خوارزمية بحث الجاذبيه المدمجة مع خوارزمية النقطة المركزية، خوارزمية الثقب الأسود و خوارزمية الارتداد العظيم. وقد طبقت الخوارزمية بمعايير المقارنة العالمية من جامعة كاليفورنيا. وأظهرت النتائج أن الخوارزمية المقترحة حققت جودة حل أفضل من الخوارزميات الأخرى. كما أمكن أيضا تقليل زمن تنفيذ الخوارزمية بدمجها مع خوارزمية النقطة المركزية الأقرب. كما قمنا أيضا بمقارنة الخوارزمية المدمجة مع خوارزمية بحث الجاذبية المدمجة بخوارزمية النقطه المركزيه الأقرب وتم تحقيق جودة حل أفضل.

English Abstract

NAME: Ahmed Mohammed Elbadawi Abdelsatir TITLE OF STUDY: A Novel Iterative non-Deterministic Algorithm for the Data Clustering Problem MAJOR FIELD: Computer Engineering DATE OF DEGREE: MAY 2017 Data clustering is an unsupervised classification method which has widespread application in pattern recognition and machine learning. It partitions unlabeled data into different sets. In clustering, the data items that belong to a same cluster are similar to each other and the data items that belong to different clusters are dissimilar from each other. A popular clustering algorithm is K-means. However, the solution quality of K-means Method is dependent on the initial solution. The quality of clustering is determined in terms of a cluster validity index such as sum of squared error (SSE). This work proposes a Simulated Evolution (SimE) based algorithm to solve the clustering problem. The main features of the proposed algorithm are as follows: (i) Selection of some data items based on their attributes; (ii) A goodness measure based on mean square quantization error (MSE); and (iii) Mutation by altering the assignment of the selected data items. The performance of the proposed algorithm is compared with eleven recent algorithms, namely: K-means, random search, Genetic Algorithm (GA), Simulated Annealing (SA), Ant colony Optimization (ACO), Honey Bee Mating Optimization (HBMO), Particle Swarm Optimization (PSO), Gravitational Search Algorithm (GSA), Gravitational Search Algorithm with K-means (GSA-KM), Black Hole (BH), and Big Bang-Big Crunch (BB-BC). The real-world problems from UCI repository have been used in the experiments. The results show that the proposed algorithm can achieve solution quality which is better than other algorithms. It can also improve the results of K-means clustering method. It was also compared with GSA-KM algorithm which is another heuristic for improving the results of K-means method. It has achieved solution quality which is better than that of GSA-KM.

Item Type: Thesis (Masters)
Subjects: Computer
Engineering
Math
Department: College of Computing and Mathematics > Computer Engineering
Committee Advisor: Sait, Sadiq / M
Committee Members: El-Maleh, Aiman / H and El-Bassuny, Tarek / A and Alshayeb, Mohammad and Siddiqi, Umair / F
Depositing User: AHAMED ABDELSATIR (g200804940)
Date Deposited: 16 May 2018 10:21
Last Modified: 31 Dec 2020 06:34
URI: http://eprints.kfupm.edu.sa/id/eprint/140656