Arabic Manuscripts Analysis and Retrieval

Arabic Manuscripts Analysis and Retrieval. PhD thesis, King Fahd University of Petroleum and Minerals.

[img]
Preview
PDF
PhD200704590.pdf - Accepted Version

Download (3MB) | Preview

Arabic Abstract

شهدت السنوات الأخيرة زيادة هائلة في عدد المخطوطات التي يتم حفظها ومعالجتها إلكترونيا والذي بدوره أدى إلى ضرورة ابتكار أساليب كفوءة للتحليل والاسترجاع. تحتوي المخطوطت العربية بدورها على نصوص رئيسية وحواشي و أشكال رسومية وزخارف. يقصد بمشكلة تحليل المخطوطات استخلاص الأجزاء المختلفة من المخطوطة وتصنيفها بحسب النوع. كما يقصد بمشكلة استرجاع محتوى المخطوطة استرجاع المخطوطات التي تحتوي على نصوص معينة. تم في الدراسات السابقة استخدام العديد من المميزات العامة والخاصة لهذا الغرض. المميزات الخاصة تتاثر بالتغيير والاختلاف في الكتابة. والمميزات الخاصة تركز على أجزاء محددة من الكتابة. تم في هذه الرسالة تطوير طريقة جديدة لاستخلاص النصوص الرئيسية والحواشي الموجودة في المخطوطات العربية. وتعتمد هذه الطريقة على اتجاه النص ، كثافة النص و وجود الفراغات بين أجزاء المخطوطة. كما تم تطوير طريقتين جديدتين لايجاد اتجاه النص. تعتمد الطريقتان على حساب تكرار اتجاهات مقاطع الكلمات. كما تم تطوير سمة جديدة تسمى حقيبة أجزاء الكلمات (Bag of Word Fragments (BoWFs)). تعتمد هذه السمة على أجزاء مختلفة من الكلمات مثل الإطار الخارجي للكلمة (Contour) والإطار الداخلي للكلمة (Skeleton). يتم في هذه الطريقة تقسيم مقاطع الكلمة العربية إلى أجزاء صغيرة للكلمة (Word Fragments). ثم يتم توصيف هذه الأجزاء باستخدام سمات سياق الشكل (Shape Context Descriptors) و تكرار الاتجاهات (Histogram of Gradient). تم اختبار طريقة استخلاص النصوص والحواشي باستخدام مجموعة من المخطوطات العربية وحققت الطريقة دقة تصل إلى حوالي 95% . كما تم اختبار السمة الجديدة باستخدام مجموعة من المخطوطات عربية بالإضافة الى الوثائق المطبوعة وحققت الطريقة نتائج متميزة للوثائق المطبوعة بمتوسط دقة يصل إلى 99.20% عندما يكون نسبة الاستراجاع 100% وجيدة للمخطوطات بمتوسط دقة يصل إلى 89.60% عندما يكون نسبة الاسترجاع 50%.

English Abstract

Recent years have witnessed a dramatic growth of the amount of manuscripts that are preserved, processed and accessed in digital form. That creates the need for efficient analysis and retrieval techniques in order to extract the relevant information contained in these manuscript images. In practice, the problem of analyzing historical document images is closely tied to the problem of text region extraction. In this work, we address this problem by developing a new method for text region extraction. Similarly, the problem of retrieving document images is closely tied to the problem of image retrieval. Recent researches employ either global or local feature extraction approaches. Global features are affected by handwriting variability and variations. Similarly, local features focus on particular parts of the words and ignore others. In our effort to address this point we used a med-level feature representation model called Bag of Word Fragments (BoWFs), that makes use of different parts of the word, such as contour and skeleton, and describes their local parts. The proposed model, evaluated on printed as well as historical documents, exhibited promising results. In particular, it achieved 99.20% in terms of precision when recall equals 1 for printed dataset and 89.60% in terms of precision when recall equals 0.5 for historical dataset written by one writer. We also evaluated the performance of the proposed model on a dataset written by two writers. We found that the proposed model is writer dependent.

Item Type: Thesis (PhD)
Subjects: Computer
Department: College of Computing and Mathematics > Information and Computer Science
Committee Advisor: Mahmoud, Sabri
Committee Members: Abdel Aal, Radwan and Elshafei, Moustafa and Alshayeb, Mohammad
Depositing User: Othman (g200704590) (g200704590)
Date Deposited: 23 Jun 2015 11:57
Last Modified: 01 Nov 2019 16:30
URI: http://eprints.kfupm.edu.sa/id/eprint/139672