RECOGNITION OF ARABIC ONLINE HANDWRITTEN TEXT USING SYNTACTICAL TECHNIQUES

RECOGNITION OF ARABIC ONLINE HANDWRITTEN TEXT USING SYNTACTICAL TECHNIQUES. Masters thesis, King Fahd University of Petroleum and Minerals.

[img]
Preview
PDF (Final Copy of Thesis)
Recognition_of_Arabic_Online_Handwritten_Text_using_Syntactical_Techniques.pdf - Accepted Version

Download (6MB) | Preview

Arabic Abstract

قمنا في هذه الرسالة بدراسة التعرف الآني على الكتابة اليدوية العربية بإستخدام الصفات البنيوية. تتعدد تطبيقات أنظمة التعرف التلقائي على الكتابة العربية. أبرز هذه التطبيقات هي عملية إدخال البيانات من خلال الأجهزة المدعومة بالأقلام الإلكترونية. إضافة إلى ذلك يعتبر التعرف على الكاتب و معالجة النماذج من التطبيقات الأخرى. تم نشر عدد كبير من الأبحاث في هذا المجال مؤخرا. تتقدم اللغات اللآتينية و اللغة الصينية على اللغات الأخرى و من ضمنها العربية في هذا المجال. قد يعود السبب في ذلك إلى طبيعة الكتابة المتصلة و كتابة الحروف المتراكبة في اللغة العربية إضافة إلى نقص وجود مصادر و قواعد بيانات معيارية شاملة. ركزت الأبحاث السابقة في مجال التعرف على الكتابة اليدوية العربية على الحروف المنفصلة، و الأرقام بالإضافة إلى الكلمات المنفصلة. حيث تم إستخدام العديد من المنهجيات لتنفيذ مراحل تقطيع الكلمات و التعرف عليها. استعملت الطرق الإحصائية لتنفيذ عمليات التقطيع والتعرف على النصوص المتصلة. من الأمثلة على ذلك إستخدام نماذج ماركوف الخفية (Hidden Markov Models), والشبكات العصبية (Neural Networks). من جهة أخرى لم يتم إستخدام المنهجيات التي تعتمد على الصفات البنيوية في هذا المجال. لكن قامت بعض الأنظمة و الأبحاث بدمج الأساليب الإحصائية مع الأساليب البنائية. نقدم في هذه الرسالة أساليب و طرق جديدة لتنفيذ المراحل المختلفة في عملية التعرف على الكتابة اليدوية العربية. حيث تم إستحداث خوارزمية مبنية على القواعد لتقوم بعملية تقطيع النصوص المتصلة. تهدف الخوارزمية إلى تقسيم النصوص المتصلة المكتوبة بشكل آني إلى حروف منفصلة. تقوم الخوارزمية بإستخدام مجموعة من القواعد من أجل إستخراج نقاط القطع المحتملة -Possible Segmentation Points (PSP)- في النص الآني. تتميز هذه القواعد بسهولة تحديثها وتعديلها. إضافة إلى ذلك، تم إستحداث خوارزمية أخرى مبنية على القواعد للقيام بعملية فصل الحروف العربية عن تشكيلاتها و النقاط المرتبطة بها. كما طورنا في هذه الرسالة اسلوب محسن لتمثيل الحروف العربية بشكل ضبابي. يقوم هذا الأسلوب على الإستفادة من المضلعات التقريبية لأشكال الحروف وزوايا هذه المضلعات لتمثيل الحروف. تم إستخدام هذه النماذج للقيام بعملية تقييم التشابه بين نماذج الحروف. وقد تم تطبيق التقنيات المقترحة على بعض قواعد البيانات المتوفرة القياسية والخاصة. وحصلنا على نتائج مقبولة مع الأخذ بعين الإعتبار أنه تم إختبارها على نصوص عربية يدوية غير مقيدة. يتضمن ذلك كلا من عمليات التقطيع والتعرف على الكلمات. ومن المعلوم أن الأخطاء الناجمة عن التقطيع تؤدي إلى زيادة كبيرة في أخطاء التعرف على الكلمات. إن النتائج التي توصلنا إليها في هذه الرسالة تحفزنا وغيرنا من الباحثين على بذل جهود أكبر و ذلك لوجود مساحة كبيرة من التطوير و تحسين الأداء. إضافة إلى إمكانية تطوير هذه التقنيات وتطبيقها بطرق مختلفة للحصول على نتائج أعلى.

English Abstract

In this thesis, we have addressed Arabic online handwriting recognition using syntactical techniques. The applications of automatic Arabic online text recognitions are several. Data input in stylus supported devices is the main application, writer identification and forms processing are other applications. Recently large number of research work is published in this field. Latin and Chinese automatic online handwriting recognition are much more advanced than other languages including Arabic. This may be attributed to the cursive nature of Arabic writing, ligatures and the lack of comprehensive benchmarking databases and resources. Previous research on online Arabic handwriting recognition focused on the recognition of isolated characters, numerals and words. Different methodologies have been reported in the segmentation and recognition phases. Statistical techniques are used to segment and recognize cursive text. Classifiers such as Hidden Markov Models (HMM) and Neural Networks are used in the recognition phase. On the other hand, structural methods are not widely used in this field. Some systems applied a combination of classifiers that used both structural and statistical techniques. In this work, we introduced new techniques for the different phases of online Arabic handwriting recognition. A rule based segmentation algorithm is presented. The algorithm aims to decompose the cursive online text into segmented letters. The algorithm implemented a set of rules to extract the Possible Segmentation Points (PSPs) of the online Text. These rules are easily updatable. In addition, another rule based algorithm to extract the attachments of the Arabic words is used. This algorithm effectively separates the main body of the online text from its attachments and additions. An improved fuzzy Arabic characters’ modeling is introduced. This modeling technique utilizes the polygonal approximation of the Arabic letters. It applies turning functions to the letters’ polygons. In the training phase the turning function is used to extract the character models. The generated fuzzy models are evaluated by comparing the similarity between the classes’ models. The presented work is applied and tested on different benchmarking and private databases. Acceptable recognition rates are achieved, given it is applied to unconstrained online handwritten text. This includes the combined segmentation and recognition phase. It is known that the segmentation errors increase the recognition errors nonlinearly. These results motivate us and other researchers to put more efforts in this subject as there is big room for improvement. In addition, our new techniques can be extended and enhanced in different ways to obtain higher performance results.

Item Type: Thesis (Masters)
Subjects: Computer
Department: College of Computing and Mathematics > Information and Computer Science
Committee Advisor: MAHMOUD, SABRI
Committee Members: ABDEL-AAL, RADWAN and AL-KHATIB, WASFI
Depositing User: AL-HALWANI MOHAMMAD KHALED (g201002480)
Date Deposited: 14 Jul 2013 08:54
Last Modified: 01 Nov 2019 15:38
URI: http://eprints.kfupm.edu.sa/id/eprint/138950