Mining Frequent Structural Patterns from XML Datasets

Mining Frequent Structural Patterns from XML Datasets. Masters thesis, King Fahd University of Petroleum and Minerals.

[img]
Preview
PDF
MOHSIN_MS_THESIS.pdf

Download (1MB) | Preview

Arabic Abstract

أصبح ال XML معياراً مقبولاً لتبادل المعلومات على شبكة الانترنت، نظراً لمرونته وقدرته على تمثيل أنواع مختلفة من البيانات. في الوقت الحاضر تزايد استخدام ال XML بشكل هائل. ونتيجة لتزايد كمية المعلومات المخزنة بهذا التنسيق، تزايدت أهمية إستكشاف معلومات قيمة منها. بكل الأحوال فإن إستكشاف معلومات مفيدة من البيانات المخزنة بتنسيق ال XML يعتبر مهمة صعبة، نتيجة لتمثيل البيانات في أنماط شجرية هرمية. سنقوم في هذه الأطروحة بتقديم خوارزمية جديدة و فعالة لإستكشاف الأنماط المتكررة للبيانات في ملفات ال XML. بخلاف أنماط البيانات الشجرية العامة، تمتلك الأنماط الشجرية في XML العديد من الأنماط الفرعية المتكررة. تستغل الخوارزمية المقترحة وجود الأنماط الفرعية المتكررة و تقوم بما يلي: أولا، تقوم بتجميع المدخلات المتمثلة بمجموعات بيانات XML بناء على الأنماط الهيكلية لها. ثانيا، تقوم بتشفير مجموعة بيانات ال XML من أجل تقليل مساحة التخزين اللازمة و من أجل تجنب التعامل مع النصوص. ثالثا، تقوم بتطبيق خوارزمية Apriori على مجموعة بيانات ال XML بعد إجراء التجميع والتشيفر عليها، تقوم هذه الخوارزمية بإيجاد الأنماط الهيكلية الفرعية المتكررة بشكل مستمر. أظهرت النتائج التجريبية أن الخوارزمية المقترحة تعطي نتائج أفضل بشكل كبير من الخوارزمية المبنية على خوارزمية Apriori.

English Abstract

Due to its flexibility and capability for representing various kinds of data, XML has become a de facto standard for data exchange over the net. Recently, the use of XML has been increasing at tremendous pace. With the ever-increasing amount of data available in XML format, the ability to mine valuable information from them has become increasingly important. However mining useful information from the XML is difficult due to its hierarchical tree structure. In this thesis we are proposing a new and efficient algorithm for mining frequent structures from XML documents. Unlike general trees, XML trees have many repeated substructures. So the proposed algorithm exploits the presence of repeated substructures and does the following. First, it clusters the input XML dataset by structure; second, it encodes the XML dataset objects in order to minimize storage space and to avoid string manipulation; and third, it applies Apriori algorithm on the clustered and encoded XML dataset to find the frequently repeated substructures. The experimental results show that the proposed algorithm significantly outperforms the Apriori based algorithms.

Item Type: Thesis (Masters)
Subjects: Computer
Department: College of Computing and Mathematics > Information and Computer Science
Committee Advisor: Al-Mulhem, Muhammed Salah
Committee Members: AHMED, MOATAZ and Ahmed, Adel and Mahmood, Sajjad
Depositing User: Ali Mohsin (g200905170)
Date Deposited: 20 Jun 2012 10:18
Last Modified: 01 Nov 2019 15:35
URI: http://eprints.kfupm.edu.sa/id/eprint/138646