RECOGNITION OF PRINTED ARABIC-ENGLISH TEXT

RECOGNITION OF PRINTED ARABIC-ENGLISH TEXT. PhD thesis, King Fahd University of Petroleum and Minerals.

[img] PDF
Recognition_of_Printed_Arabic_English_Text_-_Mohammad_Yahia_(PhD_Thesis).pdf
Restricted to Repository staff only until 1 May 2020.

Download (6MB)

Arabic Abstract

وفقا لمحتواها، يمكن لصور المستندات في حقل التعرف الضوئي على الحروف أن تكون وثائق صورية أحادية اللغة أو وثائق صورية متعددة اللغات. وعادة ما يتم تطوير أنظمة التعرف الضوئي على الحروف والنصوص لمعالجة صور المستندات أحادية اللغة كالإنجليزية على سبيل المثال. وتنخفض كفاءة هذه الأنظمة في حال استخدامها مباشرة دون تعديل لمعالجة لغات أخرى كالصينية مثلا. وهنا يأتي دور أنظمة التعرف الضوئي متعددة اللغات في معالجة التحديات والصعوبات في الوثائق الصورية متعددة اللغات. نتناول في هذا العمل البحثي معالجة تحديات تطوير نظاما للتعرف الآلي على النص ثنائي اللغة (عربي/انجليزي) باستخدام نماذج ماركوف المخفية Hidden Markov Model (HMM). وقد تم خلال هذا البحث مراجعة ودراسة العديد من الأعمال البحثية المتعلقة بتقنيات وأساليب التعرف الضوئي على النصوص أحادية اللغة وثنائية اللغة ومتعددة اللغات. ويتكون نظام التعرف الضوئي على النصوص ثنائية اللغة المقترح من أربع وحدات رئيسية هي: إعداد البيانات واستخلاص السمات والتصنيف والمعالجة اللاحقة. إن قلة مكانز الصور النصية ثنائية أو متعددة اللغات وخاصة مكانز الصور النصية عربي/إنجليزي وأيضا صعوبة الحصول عليها شجعنا ودفعنا لبناء مكنز لصور ثنائية اللغة (عري/انجليزي) يحتوي على عشر مجموعات كل منها يحتوي على 777 صورة ذات نصوص عربية وانجليزية وثنائية اللغة ومكتوبة بخط من خطوط عشرة مختارة. وفي وحدة استنباط السمات، نستنبط السمات الإحصائية ككثافة البيكسل في منطقة معينة من الصور النصية باستخدام هياكل مختلفة لتقنية النافذة المنزلقة. وفي وحدة التصنيف، يستخدم المصنف نماذج ماركوف المخفية بإعدادات مختلفة وعوامل متغيرة في تجارب التعرف الضوئي على النصوص أحادية الخط وأيضا النصوص متعددة الخطوط مستخدمين صورا رقمية مؤلفة حاسوبيا وصورا ممسوحة ضوئيا. وقد استخدمنا لتقييم أداء التعرف الضوئي المقياسين معدل الدقة ومعدل الصحة. وبالنسبة لتجارب تصنيف النصوص أحادية الخط للصور الرقمية، كان أعلى معدل صحة تم تحقيقه هو 99.98٪ وأعلى معدل دقة هو 99.98٪ وذلك من خلال التجارب التي أجريت على الخط Tahoma. أما بالنسبة لتجارب تصنيف النصوص متعددة الخطوط للصور الرقمية، فكان أعلى معدل صحة هو 98.06٪ وأعلى معدل دقة هو 97.70٪. وبالنسبة لتجارب تصنيف النصوص أحادية الخط للصور الممسوحة ضوئيا، كان أعلى معدل صحة تم تحقيقه هو 99.04٪ وأعلى معدل دقة هو 98.98٪ وذلك من خلال التجارب التي أجريت على الخط Tahoma. أما في تجارب تصنيف النصوص متعددة الخطوط للصور الممسوحة ضوئيا، فقد كان أعلى معدل صحة هو 97.07٪ وأعلى معدل دقة هو 96.62٪. وعلاوة على تجارب التعرف الضوئي على النصوص، أجرينا تجارب للتعرف على اللغة مستخدمين نفس الوحدات الرئيسة لنظام التعرف الضوئي. وقد كان أعلى دقة وصلنا إليه في تجارب التعرف على اللغة هو 99.98٪ للخط Tahoma. وفي وحدة ما بعد المعالجة، طورنا منهجية لتصحيح أخطاء التعرف الضوئي بالاعتماد على آلية التصويت و التدقيق الإملائي والتصحيح. وقد أظهرت المنهجية المعتمدة على التصويت تحسنا في معدل الصحة بنسبة 1.16٪ وفي معدل الدقة بنسبة 1.15٪. وتمكنت المنهجية المعتمدة على التدقيق الإملائي والتصحيح من تصحيح 68٪ من الكلمات الخاطئة.

English Abstract

Based on its content, an image document in Optical Character Recognition (OCR) field can be either monolingual image document or multilingual image document. Typically, OCR systems are designed to address script of a specific language (e.g. English) and their recognition rate will decline if they are used directly (i.e. without modification) to address other languages (e.g. Chinese). Multilingual OCR systems arise to address challenges and difficulties of processing multilingual documents. In this research work, we address the challenges of developing a robust printed Arabic/English text recognition prototype using Hidden Markov Models (HMMs). Many research works have been carried out to investigate the technologies and approaches of monolingual, bilingual and multilingual text recognition. Our developed recognition prototype consists of four main modules: Data Preparation, feature extraction, classification, and post-processing. The lack of availability of bilingual text datasets, particularly Arabic/English datasets, motivates us to build a bilingual dataset consists of Arabic/English text images. The presented dataset consists of 10 sets; each contains 777 binary images of Arabic, English, and bilingual text lines and written with one of 10 fonts. In the feature extraction module, features based on statistical information (e.g. pixels density) were extracted from text line images using different structures using sliding window technique. In the classification module, HMMs with different settings and parameters were used in the recognition experiments of the bilingual single-font text images as well as the bilingual multi-font text images. Two types of images were used in the classification module; digitized images and scanned images. Recognition performance was evaluated using accuracy and correctness percentages. For the digitized single-font text images classification, the achieved highest correctness was 99.98% and the highest accuracy was 99.98%. The font that has the highest recognition rates was Tahoma. For the digitized multi-fonts text images classification, the achieved highest correctness was 98.06% and the highest accuracy was 97.70%. For the scanned single-font text images classification, the achieved highest correctness was 99.04% and the highest accuracy was 98.98%. The font that has the highest recognition rates was Tahoma. For the scanned multi-font text images classification, the achieved highest correctness was 97.07% and the highest accuracy was 96.62%. In addition to the classification experiments, several language identification experiments were conducted using the same modules of the recognition prototype. The achieved highest rate was 99.98% for Tahoma font. In the post-processing module, a post-processing methodology was developed to correct the recognition errors through voting mechanism, and spellchecking and correction. Using voting mechanism, the developed methodology showed an enhancement in the correctness rate by 1.16% and in the accuracy rate by 1.15%. Using spellchecking and correction, the developed methodology has corrected 68% of misrecognized words.

Item Type: Thesis (PhD)
Subjects: Computer
Department: College of Computing and Mathematics > Information and Computer Science
Committee Advisor: Ghouti, Lahouari
Committee Members: Selim, Shokri and Zidouri, Abdelmalek and Alshayeb, Mohammad
Depositing User: Mohammed Yahia (g200703510)
Date Deposited: 23 Nov 2021 10:01
Last Modified: 23 Nov 2021 10:01
URI: https://eprints.kfupm.edu.sa/id/eprint/140946