Online Arabic Handwritten Text Recognition using Syntactical–Based Techniques

Online Arabic Handwritten Text Recognition using Syntactical–Based Techniques. PhD thesis, King Fahd University of Petroleum and Minerals.

[img]
Preview
PDF
Online_Arabic_Handwritten_Text_Recognition_using_Syntactical–Based_Techniques.pdf

Download (5MB) | Preview

Arabic Abstract

أصبحت الأجهزة المدعومة بالأقلام الإلكترونية ، مثل الأجهزة اللوحية و الهواتف الذكية، تستخدم بشكل واسع مؤخرا. إن إستخدام الكتابة الآنية بالقلم الإلكتروني يمثل الطريقة الأنسب لإدخال البيانات في هذه الأجهزة. سيوفر تطوير نظم للتعرف الآلي على النصوص المكتوبة بإستخدام القلم الإلكتروني طريقة سريعة وسهلة لتعامل المستخدمين مع هذه الأجهزة. إستخدمت الطرق الإحصائية في الأبحاث المتعلقة للتعرف على النصوص الآنية المكتوبة بإستخدام الأقلام الإلكترونية بشكل واسع, ولكن الطرق التي تعتمد على الصفات البنيوية لم تستخدم بشكل كاف. قمنا في هذه الرسالة بدراسة التعرف الآلي على النصوص العربية الآنية المكتوبة بإستخدام الأقلام الإلكترونية بإستخدام الصفات البنيوية. تم في هذه الرسالة إقتراح طريقة مطورة لإستخدام التمثيل الضبابي (Fuzzy modeling) في التعرف على الكتابة، وقد تم تطبيق هذه الطريقة لتمثيل الأرقام العربية (الهندية). تقوم هذه الطريقة بتوليد نماذج للأرقام العربية بشكل آلي بالإستفادة من البيانات المستخدمة في مرحلة التدريب. بالإضافة إلى ذلك، يتم إعطاء أوزان (Weights) مختلفة لأجزاء الرقم حسب أهميتها بحيث يستفاد من هذه الأوزان في مرحلة تقييم التشابة. إن النماذج المقترحة قادرة على التعامل مع التغيرات الناتجة من أنماط الكتابة اليدوية المختلفة. تعرض هذه الرسالة أيضا طريقة للتعرف على الحروف العربية المنفصلة إعتمادا على تمثيل الحروف بإستخدام مكوناتها الأساسية (Graphemes). وقد تم تقييم الطريقة المقترحة باستخدام مجموعة من السمات بالإضافة إلى مجموعة من تقنيات التصنيف الحديثة. تقدم هذه الرسالة أيضا خوازمية لتقسيم النصوص العربية الآنية المتصلة إلى أجزاءها الأساسية. تم تصميم هذه الخوازمية بحيث تراعي طريقة ربط الحروف ببعضها في الكتابة العربية. تم الإستفادة من الخوازمية المقترحة في تصميم تقنية للتعرف الآلي على النصوص العربية الآنية بإستخدام سماتها البنيوية. تعتمد التقنية على التصنيف الضبابي (Fuzzy classification) في التعرف على الأجزاء الأساسية التي يتم تحديدها من النصوص ومن ثم يتم التعرف على الحروف المقابلة لهذه الأجزاء بالإستفادة من إلإحصائيات الناتجة من تحليل الحروف المستخدمة في مرحلة التدريب. تم تطبيق التقنيات المقترحة في هذه الرسالة على قواعد بيانات تشمل الأرقام والحروف والكلمات والنصوص العربية الآنية، وقد حصلنا على نتائج واعدة. بالإضافة إلى ذلك فإن التقنيات المقترحة قابلة للتطوير والذي بدوره سيؤدي إلى تحسن النتائج.

English Abstract

In recent years tablets and smartphones have been used widely. Online text forms a natural representation for inputting data to these devices. Developing a system for automatic recognition of online text provides a quick and natural way of communication between these devices and human beings. Statistical-based approaches have been widely used in research on online text recognition while syntactical-based approaches have remained less explored. In this thesis, research on automatic Arabic online text recognition using syntactical-based techniques has been conducted. An improved fuzzy modeling approach of Arabic text is proposed. This approach is applied to Arabic (Indian) online digits’ recognition. In this approach, fuzzy models for the different digits are automatically generated using the training data. The fuzzy intervals are generated automatically based on the analysis of the training samples at the digit segment level. In addition, we automatically generate weights for the different segments using the training samples. These weights are integrated to the fuzzy similarity estimate. These fuzzy models proved to be able to handle the variability of the handwriting styles. A grapheme-based approach for recognizing isolated online Arabic characters is presented. The proposed approach models the online characters based on their graphemes using generated codebook. Different features and classification approaches are used in order to investigate the proposed modeling on Arabic online character recognition. A new algorithm for segmenting the Arabic online text into its graphemes is proposed. The algorithm utilizes the way characters are joined in Arabic online text. Based on this algorithm, a grapheme-based approach for Arabic online text recognition is presented. A fuzzy classification approach is used to recognize the extracted graphemes from the testing data. A graph-based approach is used to map the recognized graphemes to their corresponding characters based on the graphemes’ statistics gathered by analyzing the training data. The proposed techniques in this thesis are applied on Arabic online digits, characters, words and text databases and the obtained results are promising. The presented work is easily extendable.

Item Type: Thesis (PhD)
Subjects: Computer
Department: College of Computing and Mathematics > Information and Computer Science
Committee Advisor: Mahmoud, Sabri
Committee Members: Abdel Aal, Radwan and Elshafei, Moustafa and Alshayeb, Mohammad and Mahmoud, Ashraf
Depositing User: DHIAA ABDULRAB MUSLEH (g200505210)
Date Deposited: 01 Aug 2016 08:44
Last Modified: 01 Nov 2019 16:35
URI: http://eprints.kfupm.edu.sa/id/eprint/140070