HIERARCHAL CLUSTERING ALGORITHM FOR LARGE XML DATA

HIERARCHAL CLUSTERING ALGORITHM FOR LARGE XML DATA. Masters thesis, King Fahd University of Petroleum and Minerals.

This is the latest version of this item.

[img]
Preview
PDF (Daud Master Thesis)
fulltext.pdf - Submitted Version
Available under License Creative Commons Attribution Non-commercial No Derivatives.

Download (2MB) | Preview

Arabic Abstract

الاسم: عبدالرحمن محمد عبدي داود عنوان الرسالة: خوارزمية تجميع عنقودي لبيانات لغة اكس-ام-ال ذات الحجم الكبير مجال التخصص: علوم الحاسب و المعلومات تاريخ التخرج: يونيو، 2011 يتم استخدام خوارزميات تجميع البيانات في مجالات واسعه منها الأعمال التجارية ، والمجالات العلمية والهندسية. ومن الأمثلة على ذلك التسويق ، والمعلوماتية الحيوية وعلم الوراثة و الطب و التعليم. تجميع بيانات لغة اكس-ام-ال هي من البحوث النشطة لان لغة اكس-ام-ال هي التنسيق الأكثر شعبية لتبادل البيانات على شبكة الانترنت. علاوة على ذلك، فان تجميع بيانات لغة اكس-ام-ال يحسن من كفاءة معالج استعلام الجيل الجديد من قواعد البيانات ، قواعد بيانات لغة اكس-ام-ال. في هذه الرسالة نقدم دراسة استقصائية لخوارزميات تجميع البيانات الغير منظمة و الشبة منظمة. ثم نقترح خوارزمية جديدة لتجميع بيانات لغة اكس-ام-ال والتي تستخدم لحفظ هذه النوعية من البيانات. أيضا في هذه الرسالة سنقوم بتوسيع خوارزمية بيرش ذات الخاصية الهرمية لتشمل القيم الغير رقمية. تبين التجارب ان الخوارزمية المقترحة في هذه الرسالة تقوم بمسح البيانات مرتين فقط للقيام بالتجميع العنقودي لهيكل و محتوى لغة اكس-ام-ال. و تبين التجارب أيضا أن اجزاء الخوارزمية المقترحة لديها نمو خطي في التحليل الزمني و نمو دون المستوى الخطي في تحليل المساحات، الأمر الذي يجعلها مناسبة للبيانات ذات الحجم الكبير. وقد بينت التجارب أن معدل دقة الخوارزمية المقترحة هو 89.5 بالمئة وهي نسبة عالية في مجال تجميع البيانات الغير منظمة و الشبه منظمة. الكلمات الرئيسية : لغة الرقم القابلة للامتداد، التحليل العنقودي، تحليل البيانات ، تحليل لغة الرقم القابلة للامتداد ، استخراج البيانات، الخوارزميات ، تحليل الشبكة العنكبوتية، تحليل قواعد البيانات

English Abstract

NAME: Abdirahman Mohamed Abdi Daud TITLE OF STUDY: HIERARCHAL CLUSTERING ALGORITHM FOR LARGE XML DATA MAJOR FIELD: COMPUTER SCIENCE DATE OF DEGREE: June 2011 Data clustering algorithms are widely applied in areas of business, science, and engineering. Examples include marketing, bioinformatics, genetics, medicine, and education. XML data clustering is a hot research area because on the Internet, XML is the most popular format for data exchange. Furthermore, XML data clustering improves the query processing efficiency of the new generation of databases, the Native XML databases. In this thesis we present a survey of existing XML clustering algorithms. Then we propose a new XML clustering algorithm that clusters XML data based on its structure and content. The BIRCH algorithm, a popular hierarchal clustering algorithm used by our algorithm, is extended to work with categorical values. Experiments showed that our algorithm requires only two scans to cluster XML data. The experiments also showed that the phases of the proposed algorithm have linear time complexity and sub-linear space complexity. On the average, the recall of the our algorithm is 89.5 percent which is high recall value in the field of XML data clustering. To the best of our knowledge, this is the first algorithm which produces hierarchical clusters of XML data by both structure and content for large homogeneous XML datasets.

Item Type: Thesis (Masters)
Subjects: Computer
Department: College of Computing and Mathematics > Information and Computer Science
Committee Advisor: Mohamed, Salahadin Adam
Committee Members: Mohammed, Salahadin Adam and Al-Mulhem, Muhammed Saleh and Ahmed, Adel Fadhl
Depositing User: Abdulrahma Daud (g200153650)
Date Deposited: 11 Dec 2011 07:38
Last Modified: 31 Dec 2020 08:10
URI: http://eprints.kfupm.edu.sa/id/eprint/138520

Available Versions of this Item

  • HIERARCHAL CLUSTERING ALGORITHM FOR LARGE XML DATA. (deposited 11 Dec 2011 07:38) [Currently Displayed]