Arabic Manuscript Layout Analysis and Classification

Arabic Manuscript Layout Analysis and Classification. PhD thesis, King Fahd University of Petroleum and Minerals.

[img]
Preview
PDF
PhD_Galal_Thesis_2018.pdf - Submitted Version
Available under License Creative Commons Attribution Non-commercial No Derivatives.

Download (12MB) | Preview

Arabic Abstract

تحوي العديد من المكتبات الرقمية حول العالم عدداً كبيراً من المخطوطات العربية والتاريخية النادرة والتي تشكّل مصدراً مهماً للعلماء والباحثين والمهمتين في ابحاثِهم وفي دراسة التراث العربي. عادةً ما تُعرض المخطوطات بصيغة صور رقمية وليست نصوصاً مما يُعيق عمليات البحث عن المعلومات واسترجاعها من قبل الباحثين. وهذا يشكّل ضعفاً بتقنيات استرجاع المعلومات وخاصةً التي تتعامل مع المخطوطات التاريخية، وبالتالي فإن ما توفره المكتبات الرقيمة من مخطوطات لم يُستَغل بالشكل الأمثل. ولمعالجة هذه المشكلة، تحتاج هذه المخطوطات التاريخية إلى معالجة تحليلية لهيكلها (Layout Analysis) لاستخراج محتواها الرئيسي ومن ثم القيام بفهرستها بناءً على ذلك المحتوى. في هذه الدراسة اقترحنا منظومة متكاملة للتحليل الالي والتصنيف للمخطوطات العربية التاريخية (MLAC). تتكون المنظومة المقترحة من تقنيتين رئيسيتين هما تقنية تحليل هياكل المخطوطات (Document Layout Analysis) لاستخراج النص الرئيسي، وتقنية استرجاع المخطوطات باستخدام طريقة البحث عن الكلمات ذات العلاقة (Keyword Spotting). قمنا بتطوير نظام تحليل هجين (Hybrid) يضم أسلوب التحليل التنازلي (Top-down) وأسلوب التحليل التصاعدي(Bottom-Up) لتحليل المخطوطات التاريخية. يعمل النظام في مرحلة التحليل التنازلي وبشكل آلي على تحديد النص الرئيسي للمخطوطة مبدئياً ثم يستخلص مجموعة من المميزات الهندسية لتلك النصوص. وبعدها يعمل نظام التحليل التصاعدي على رصد وتتبع مسار النص الرئيسي للمخطوطة باستخدام تلك المميزات الهندسية لتقسيم المخطوطة بشكل نهائي إلى نص رئيسي وهوامش. كما اقترحنا طريقة البحث عن الكلمات ذات العلاقة لتصنيف المخطوطات عن طريق نصوصها الرئيسية. الجديد في اقتراحنا لهذه الطريقة هو تحسين استخلاص المميزات (Feature extraction) من صور الكلمات باستخدام هيكل الكلمة (word-skeleton) بالإضافة إلى تحليل أسلوب التعليم الآلي أثناء التدريب لمعرفة عوامل اتخاذ قرار التصنيف بها، ومن ثم تكييف الباحث الآلي باستخدام تلك العوامل لاسترجاع المعلومات بشكل ادقّ. ولتقييم أداء المنظومة المقترحة، قمنا بتطوير قاعدة البيانات (AHHM) للمخطوطات العربية والتاريخية والتي تتألف من 108 صفحة تم تجميعها من مكتبتين رقميتين هما مكتبة هارفرد ومكتبة برلين. هذا وتحتوي قاعدة البيانات في المجمل على 2135 كلمة تم استخراجها من المخطوطات، كما تم اختيار 25 كلمة رئيسية منها للقيام بعملية التصنيف والاسترجاع للمخطوطات. كما سيتم إتاحة قاعدة البيانات هذه للباحثين مجاناً.

English Abstract

Vast number of historical Arabic manuscripts is available in digital form on-line where automatic classification, indexing, and retrieval maybe needed. Such tasks depend heavily on the quality of the manuscript layout analysis and classification (MLAC) system. Usually, Optical Character Recognition (OCR) system fails to address such tasks for historical manuscripts. Historical manuscripts suffer from various degradations such as aging, touching-text, faint-text, ink-bleeding, show-through, broken words, unorganized text spacing, and text skewing. Such manuscripts' characteristics make OCR infeasible. Unlike OCR, the MLAC system does not convert documents to text but uses image patches to classify and retrieve documents that match these patches. In this thesis, we propose a MLAC system for Arabic historical manuscripts that consists of two main phases; document layout analysis, and document classification. We propose a hybrid document layout analysis approach using anisotropic diffusion of whitespace analysis (as a top-down strategy) and moving window approach powered by connected component analysis (as a bottom-up strategy). The proposed approach performs segmentation at regional levels where it aims at extracting manuscripts' main-content. We also propose a learning-based keyword spotting system (KWS) using word-skeleton and Speeded-Up Robust Features (SURF). The word-skeleton adapts to the nature of handwriting strokes and indicates important interest regions by intrinsic word structure. Moreover, we also propose a novel spotting thresholding method that is objectively estimated by considering the recognition behavior of Support Vector Machines (SVMs) in the training phase. In addition, we present an Arabic Historical Handwritten Manuscript (AHHM) database consisting of 108 manuscript pages collected from two main digital libraries. The database consists of manuscripts dated between 10th to 18th centuries from the Islamic heritage by scholars in Hadith, Islamic Doctrines, and Sufism. Moreover, the manuscripts are segmented into main-content, side-notes and words. There are 2135 segmented words and 25 keyword classes. We evaluated our Manuscript Layout Analysis system (MLAC) on three datasets; Bukhari, HADARA80P, and AHHM datasets (AHHM is developed in this work). The performance of our layout analysis system and document classification yields promising results with success rate up to 98.83% PRImA metric, and 91.40% in terms of F-measure respectively.

Item Type: Thesis (PhD)
Department: College of Computing and Mathematics > Information and Computer Science
Committee Advisor: Mahmoud, Prof. Sabri A.
Committee Members: Abu-Amara, Dr. Marwan and RafiulHassan, Dr. Md. and Mohandes, Dr. Mohamed and Selim, Prof. Shokri Z.
Depositing User: Mr GALAL MUNASSAR BIN MAKHASHEN
Date Deposited: 16 Oct 2018 08:12
Last Modified: 01 Aug 2021 12:27
URI: http://eprints.kfupm.edu.sa/id/eprint/140766