CONTENT-BASED RETRIEVAL OF ARABIC HISTORICAL MANUSCRIPTS USING LATENT SEMANTIC INDEXING

CONTENT-BASED RETRIEVAL OF ARABIC HISTORICAL MANUSCRIPTS USING LATENT SEMANTIC INDEXING. Masters thesis, King Fahd University of Petroleum and Minerals.

[img]
Preview
PDF
MohammedYahia_200703510.pdf

Download (4MB) | Preview

Arabic Abstract

تعتبر عملية البحث اليدوي في المخطوطات العربية من الأمور الصعب تنفيذها وذلك نظرا لضخامة المخزون من هذه المخطوطات مما يؤدي لصعوبة انشاء الفهارس يدويا. كما ان البحث التلقائي لن يجدي نفعا نظرا لوجود الكثير من هذه المخطوطات مخزنة بالأساس كصور. وعلى الرغم من توفر تقنية التعرف الضوئي على الحرف (OCR) فإن بعضا من خصائص المخطوطات العربية التاريخية وبعض محتوياتها كالأرقام والرسومات تعيق تقنيات التعرف الضوئي على الحرف من أداء المهمة وبالتالي الحصول على نتائج مرضية. نتيجة لهذه الأسباب، فإننا نقدم في هذا العمل البحثي توظيف تقنيات المحتوى القائم على استرجاع الصور (CBIR) ومبادئ فهرسة الدلالات الكامنة (LSI) نهجا لفهرسة هذه المخطوطات وجعلها أفضل وصولا للعامة. يتكون النظام المطور من خمس وحدات رئيسية هي : 1) التجهيزات المسبقة، 2) تجزئة الصور، 3) استخراج السمات، 4) بناء فهرس الدلالات الكامنة و 5) تنفيذ و مطابقة الاستعلامات. بالإضافة إلى ذلك، قمنا في هذا العمل البحثي بتقديم سمة جديدة وهي الشبكة الدائرية القطبية Circular Polar Grids. أما فيما يتعلق باختبار النظام، قمنا بالحصول على مخطوطتين عربيتين ومن ثم تنفيذ الوحدات الرئيسية على تلك المخطوطتين. تم تقييم كفاءة ودقة النظام المطور باستخدام المقياسي: الدقة Precision والاسترجاع Recall. أظهرت النتائج أن نظامنا قادر على استرجاع الكلمات المرتبطة ذات الصلة. بالإضافة إلى ذلك، أظهرت السمة الجديدة، الشبكة الدائرية القطبية، تفوقها على مجموعات السمات الأخرى المستخدمة في النظام.

English Abstract

Large archives of historical Arabic manuscripts cannot be manually searched because of the difficulty of manual indexing construction and also cannot be automatically searched since they were stored in their original image forms. Optical character recognition (OCR) techniques are available, but due to the characteristics of the historical Arabic manuscripts and some contents such as figures and drawings of manuscripts, OCR techniques may not yield satisfactory results. Due to these reasons, we suggest in this research work, employing content-based image retrieval (CBIR) techniques and latent semantic indexing (LSI) approach to index these manuscripts and to make them better accessible to the public. Our system consists of five main modules: 1) image pre-processing, 2) image segmentation, 3) feature extraction, 4) LSI index construction, and 5) the query matching. Additionally, we present a novel feature called Circular Polar Grid (CPG). We have acquired two manuscripts, on which our system was tested. We evaluated the efficiency and accuracy of our developed system using precision and recall. The experiments were carried out, independently, on these manuscripts. The results showed that our system was able to retrieve relevant words. Additionally, the circular polar grid features showed superiority over other feature sets.

Item Type: Thesis (Masters)
Subjects: Computer
Department: College of Computing and Mathematics > Information and Computer Science
Committee Advisor: Al-Khatib, Wasfi
Committee Members: Ahmed, Moataz and Al-Muhtaseb, Husni
Depositing User: Mohammed Yahia (g200703510)
Date Deposited: 12 Feb 2012 10:56
Last Modified: 01 Nov 2019 15:30
URI: http://eprints.kfupm.edu.sa/id/eprint/138592