DOCUMENT ANALYSIS AND SCRIPT IDENTIFICATION

DOCUMENT ANALYSIS AND SCRIPT IDENTIFICATION. Masters thesis, King Fahd University of Petroleum and Minerals.

[img]
Preview
PDF (DOCUMENT ANALYSIS AND SCRIPT IDENTIFICATION_ by ZAHER AHMED SAHAL BAMASOOD)
DOCUMENT_ANALYSIS_AND_SCRIPT_IDENTIFICATION_BY_ZAHER_AHMED_SAHAL_BAMASOOD.pdf

Download (43MB) | Preview

Arabic Abstract

الهدف الأساسي من هذه الرسالة هو تطوير تقنيات تقوم بتقسيم مستند إلى مناطق نصية وغير نصية, ثم تصنيف لغات المناطق النصية إلى عربي أو لاتيني. ينقسم النظام إلى جزأين: تحليل وتصنيف المستند، وتحديد اللغة. اقترحنا خوارزمية في تحليل وتصنيف المستند لتقسيم مستند إلى مناطق متجانسة، وثم تصنف المناطق المتجانسة إلى نصية أو غير نصية. تتكون قاعدة البيانات من 398 صورة مأخودة من قاعدة النص العربي المطبوع (المقدمة في جامعة الملك فهد للبترول والمعادن) والتي تشمل 6074 منطقة مقسمة إلى 4231 منطقة للتدريب و1843 منطقة للفحص. أظهرت خوارزميتنا المقترحة بأنها الأفضل أداءً في مقياس الخطأ للمناطق المدموجة عندما قارناها بالخوارزميتين XY cut، وRLSA. لتحديد أفضل السمات اتبعنا طريقتين الأولى طريقة تحديد السمات بالتسلسل الأمامي والثانية طريقة تحديد السمات بالتسلسل الخلفي. لتقييم أفضل السمات، استخدمنا مصنفات الشبكة العصبية (NN)، والدعم الموجه الآلي (SVM) والجار الأقرب (K-NN). أظهرت خوارزميتنا المقترحة بأنها الأفضل في كل الحالات إلا في حالة تحديد السمات بالتسلسل الخلفي مع استخدام مصنف الشبكة العصبية. وفي تحديد اللغة، استخرجنا سمات جابور على مستوى المنطقة والكلمة. تتكون قاعدة البيانات من 444 صورة مأخوذة من قاعدة النص العربي المطبوع، وقاعدة جامعة واشنطن الإصدار الأول، وقاعدة البيانات الخاصة بنا. المصنفات المستخدمة في تحديد اللغة على مستوى المنطقة والكلمة هي الجار الأقرب (K-NN)، والمتوسط الأقرب (Nearest Mean)، والشبكة العصبية (NN)، والدعم الموجه الآلي (SVM)، وشجرة القرار (Decision Tree)، وشجرة الدعم (Tree Boost). حيث اظهر مصنف الدعم الموجه الآلي النتائج الأفضل: وهي 99.5952% على مستوى المنطقة و99.76% على مستوى الكلمة. بينما أظهر مصنف المتوسط الأقرب النتائج الأقل على مستوى المنطقة والكلمة.

English Abstract

The main objective of this thesis is developing techniques to segment a document into text and non text regions, then classify the scripts of each text region as Arabic or Latin. The system is divided into document analysis and classification, and script identification. In Document analysis and classification, we proposed an algorithm to segment a document into homogenous regions that are later classified into text or non text. The database is 398 images collected from Printed Arabic Text Database (PATDB), which includes 6074 regions partitioned into 4231 for training and 1843 for testing. The proposed algorithm has the best performance in merged zones error when it was compared with XY cut and RLSA segmentation algorithms. We used Sequential Forward Features Selection (SFFS) and Sequential Backward Features Selection (SBFS) to select the best features. The best features are evaluated by using neural network (NN), SVM, and K-NN (K=1) classifiers. The proposed algorithm shows the best performance in all cases except the case of using SBFS method with NN classifier. In script identification, Gabor features are extracted at block and word levels. A database of 444 pages was collected from PATDB, University of Washington and our own. The scripts are identified at the block and word levels using K-NN (K=1), Nearest Mean (NM), NN, SVM, Decision Tree, and Tree Boost classifiers. SVM shows the highest accuracy with 99.5952%, and 99.76% at the block and word levels, respectively. NM shows the lowest accuracy at the block and word levels.

Item Type: Thesis (Masters)
Subjects: Computer
Department: College of Computing and Mathematics > Information and Computer Science
Committee Advisor: Mahmoud, Sabri
Committee Members: Abdel-Aal, Radwan and Al-Khatib, Wasfi
Depositing User: BAMASOOD Z AHMED SAHAL (g200804780)
Date Deposited: 05 Jan 2014 16:20
Last Modified: 01 Nov 2019 15:40
URI: http://eprints.kfupm.edu.sa/id/eprint/139026