XML STRUCTURE-BASED CLUSTERING AND ITS APPLICATION IN SELECTIVITY ESTIMATION

XML STRUCTURE-BASED CLUSTERING AND ITS APPLICATION IN SELECTIVITY ESTIMATION. Masters thesis, King Fahd University of Petroleum and Minerals.

[img]
Preview
PDF
Thesis_Barradah.pdf

Download (2MB) | Preview

Arabic Abstract

مع ازدياد شعبية تطبيقات XML وقواعد البيانات، أصبحت معالجة الاستعلامات بكفاءة ضرورية جدا. ويعتمد أداء معالجات الاستعلامات لشجراتXML بشكل كبير على تقدير الانتقائية لاختيار أفضل خطة لتنفيذ الاستعلام. معظم الحلول الموجودة تعالج تقدير الانتقائية للاستعلام عن المسارات الخطية والاستعلام عن المسارات الغصينية الوجودية بينما يتطرق عدد قليل منها للمسارات الغصينية العادية. نقترح في هذه الدراسة مقدر انتقائية عام يمكنه تقدير الانتقائية لأنواع الاستعلامات الثلاث ويعتمد على التلخيص البنيوي لشجرة XML باستخدام دالة بصمة (fingerprint) أو الأعداد الأولية لترقيم أوراق شجرة البيانات وتجميع الأشجار الفرعية المتماثلة لتوليد شجرة التلخيص. وتم تقيم الطريقة المقترحة ومقارنتها مع خوارزميات أخرى على قواعد بيانات ذات خصائص مختلفة ومجموعات مختلفة من الاستعلامات متعددة المستويات. وقد أظهرت النتائج التجريبية معدلات خطأ منخفضة جدا للطريقة المقترحة مقارنة بالطرق الأخرى. ولزيادة مرونة الطريقة المقترحة للتعامل مع الحالات التي فيها قيود على ذاكرة التخزين تم اختصار شجرة التلخيص مما أدى إلى انخفاض دقة التقدير، ولتعويض بعض الفقد الناتج تم دمجها مع أسلوب إحصائي لتحسين الأداء نسبيا.

English Abstract

With the increasing popularity of XML and database applications, the demand for efficient query processing is becoming very essential. The performance of XML query optimizers depend heavily on selectivity count estimation to choose the best query execution plan. Most of the existing estimators address the problem of linear path and existential twig query selectivity count estimation while very few address the problem of regular twig query selectivity count estimation. In this work, we propose and evaluate a general selectivity count estimator based on a structural synopsis called, SynopTech, that can estimate the selectivity counts for the three query types. We also propose two novel approaches to generate structural summaries of XML data trees which can be used by SynopTech for selectivity count estimation. The main idea of the first summarization approach is to use a fingerprinting function to label nodes in the data tree and cluster similar sub-trees to generate a summary tree. The second approach is based on clustering the nodes using the prime-number labeling scheme to generate the summary tree .The experimental results showed very low error rates by the proposed approach for XML documents in four benchmark datasets with different structural characteristics including non-uniform documents and multi-level queries. Comparing with the Sampling algorithm and TreeSketch, two state-of-the-art algorithms for selectivity count estimation, SynopTech achieved lower selectivity count estimation error rates on most datasets, yet with very low memory budget. For example, for linear and existential queries, SynopTech had perfect estimations whereas the Sampling algorithm had an overall error rate of more than 85%. For regular twig queries, SynopTech had a maximum error rate of 0.8% whereas the TreeSketch algorithm had more than 15% on some datasets. Moreover, we present a scalable hybrid approach for selectivity count estimation by combining a statistical technique with SynopTech. This hybrid approach can work under limited storage budget but at the expense of lowering its estimation accuracy.

Item Type: Thesis (Masters)
Subjects: Computer
Department: College of Computing and Mathematics > Information and Computer Science
Committee Advisor: El-Sayed, M. El-Alfy
Committee Members: Muhammed, S. Al-Mulhem and Moataz, Ahmed and Sajjad, Mahmood
Depositing User: BARRADAH A FAISAL (g199968940)
Date Deposited: 27 Jan 2014 06:32
Last Modified: 01 Nov 2019 15:40
URI: http://eprints.kfupm.edu.sa/id/eprint/139053