KFUPM ePrints

Arabic Handwriting: Analysis and Synthesis

l Arabic Handwriting: Analysis and Synthesis. PhD thesis, King Fahd University of Petroleum and Minerals.

[img]PDF - Accepted Version
6Mb

Arabic Abstract

إن التعرف على الكتابة اليدوية وتكثيفها لمن المسائل التي نواجه فيها تحديات علمية، لا سيما فيما يخص الكتابة العربية. وقد استقطب مجال التكثيف الآلي للكتابة الشبيهة باليدوية الاهتمام بسبب تطبيقاته العديدة، والتي منها تدريب المتعرفات الآلية وشخصنة خطوط الحاسوب. هذه الرسالة متوجهة لتحليل وتكثيف خط اليد العربي، حيث قمنا بجمع قاعدة بيانتا صممت خصيصا لهذا الهدف، وذلك بجعلها مشتملة ليس على جميع أحرف اللغة العربية فحسب، بل وعلى جميع أشكال تلكم الحروف. كما قمنا بفصل ما يتراكب من الحروف مما لا يتراكب منها تمهيدا للتعامل مع كل فريق على حداً. بعد جمع الفقرات الكتابية، قمنا بتقطيعها إلى أحرف بشكل شبه-آلي تارة، وبشكل آلي تارة أخرى. وقد قيمنا التقطيع الآلي بمقارنته بنظيره شبه-الآلي عبر مقياس خصصناه ليتلاءم مع هذه المهمة. وهنا نشير إلى أن البيانات المقعة بشكل شبه آلي تشكل –بشكل عام- مع المقياس المذكور أداة للتحكيم الكمي على التقطيع الآلي. وقد نتجت عن عمليات التقطيع مجموعتان من أشكال الحروف: الحروف المقطوعة حدا والحروف المقطوعة بامتداد. فأم الممتدة، فتوصل بوضعنماذجها المختارة متجانبة حيث تلتقي الامتدادات فيما أطلقنا عليه أسلوب الحرف الممتد لتكثيف الكتابة. وأما الحروف المقطوعة حدا فإنها تحتاج لامتدادات صناعية تمت نمذجتها وتكثيفها واستخدامها فيما أطلقنا عليه أسلوب الوصلة الصناعية لتكثيف الكتابة. وقد توجنا تكثيف الكتابة بتقديم نتاجها لمتعرف آلي من الظراز الأحدث، فازدادت نسبة تعرفه مقارنة بحاله عندما تدرب على قاعدة البيانات الأصلية فقط، وبلغت نسبة التحسن في المتعرف المزود بكتابة مكثفة بأسلوب الامتداد الصناعي 16.39%. هذا وتجدر الإشارة إلى أمرين: الأول أن الكتابة المكثفة امتازت بمشابهتها للحقيقية أمام العين، والثاني أن هذه النتائج تعد من النوع الذي يمكن تقطيعها لأصلها، مما يكسبها أهمية تقنية قصوى.

English Abstract

Handwriting recognition and synthesis are challenging problems, especially for the Arabic script. However, synthesis, or the automatic generation of handwriting, has recently gained interest because of its various applications that include training recognition systems and font personalization. In this dissertation, we addressed the problem of Arabic handwriting analysis and synthesis. We collected a dataset that is specifically designed for Arabic handwriting synthesis. This was accomplished by assuring that the dataset-text contains all Arabic characters and their shapes. Moreover, we introduced the idea of decoupling ligative from unligative texts to ease dealing with each separately. The unligative dataset was and ground-truthed to the character-level, and an entropy-based measure was used to cross-validate the automatic and the semi-automatic results. The ground-truthed dataset and the adapted measure form a valuable resource for benchmarking segmentation systems. The segmentation step produced two sets of character-shapes: strictly segmented character-shapes and extended character-shapes. The extended character-shapes were concatenated by setting the selected shapes in juxtaposition so that their extensions directly connect in what we call the extension-glyph technique. Strictly segmented character-shapes require synthetic extensions for their connection. Hence, these were modeled and generated for what we call the synthetic-extension technique. We synthesized and recognized handwriting samples using the extension-glyph and the synthetic extensions techniques. Not only did the synthesized data improve the performance of a baseline recognition system on a popular testing benchmark, but also it appeared natural to the eye. An improvement of 16.39% in the recognition performance of the baseline system was achieved when 8,652 synthetic extension samples were injected to the original training set of 2,322 words. An additional benefit of the synthesized data is that it can be regarded as an expanded ground-truthed dataset on its own.



Item Type:Thesis (PhD)
Subjects:Computer
Islam and Arabic
Electrical
Divisions:College Of Computer Sciences and Engineering > Computer Engineering Dept
College Of Computer Sciences and Engineering > Information and Computer Science Dept
College Of Computer Sciences and Engineering > Systems Engineering Dept
College Of Engineering Sciences > Electrical Engineering Dept
Committee Advisor:Zidouri, Abdelmalek
Committee Co-Advisor:Al-Khatib, Wasfi
Committee Members:Elshafei, Moustafa and Abdel-Aal, Radwan and Mahmoud, Ashraf
ID Code:139204
Deposited By:ELARIAN YOUSEF SALEM (g200604300)
Deposited On:11 Jun 2014 13:52
Last Modified:11 Jun 2014 13:52

Repository Staff Only: item control page