Development of Part-of-Arabic Word Corpus for Handwriting Text Recognition

Development of Part-of-Arabic Word Corpus for Handwriting Text Recognition. Masters thesis, King Fahd University of Petroleum and Minerals.

[img]
Preview
PDF
merged_document.pdf - Published Version

Download (2MB) | Preview

Arabic Abstract

يعتبر التعرف على الخط العربي المكتوب باليد أحد المواضيع الشيقة للبحث في الوقت الراهن, ويعزى ذلك إلى نقوم في هذه الرسالة بالتركيز على استرجاع ، الحاجة لاستخلاص النصوص العربية من الصور الرقمية وتمثيلها نصيا الأجزاء النصية العربية ( من الصور المخزنة مسبقا ، فقمنا – - والتي تتكون منها الكلمات Part of Arabic Words) شبه تلقائي وذلك لاستخراج الأجزاء العربية المتصلة وتخزينها كصورة (Framework)بتطوير نظام أو إطار عمل مصغر مع ما يقابلها من النص ، حيث يمكن استخدام هذا النظام في توليد قاعدة بيانات مختصة بهذه الأجزاء بأقل وقت ممكن وكفاءة عالية. كما قمنا بتطوير نظام لتصنيف هذه الأجزاء العربية المتصلة والتعرف عليها. ولتوليد قاعدة البيانات هذه ، استخدمت الصور المحتوية على الأسطر المفردة من النص لقاعدة البيانات "خط" .)بالإضافة الى ذلك قمنا بتحليل الأجزاء العربية المكتوبة بخط اليد IFN/ENIT وقاعدة البيانات ( (KHATT-Database) التي تم توليدها ، كما درسنا تكرار وحجم هذه الإجزاء من أجل التعرف عليها آليا فيما بعد. Machine ( نعتمد في هذه الرسالة على تطويع تقنيات التعلم الآلي -) في التعرف على الأجزاء العربية Learning K ( المتصلة حيث قمنا بدراسة تقنية أقرب عنصر مجاور ), كما تمت SVM -) و تقنية القوة الداعمة ( nearest Neighbor (C تجربة ميزة الشبكة القطبية الدائرية الناتجة من مجموعة مميزات حسابية بسيطة ، وميزة لوغاريثم ircular Polar Grid) تصنيف 0111 وتم استخدام ، (Gabor)غابور حيث تم استرداد ما يقرب من ، مختلف من البيانات المجمعة (Class) من إجمالي الأجزاء المختلفة الموجودة في الصور بواسطة تقنية القوة الداعمة مستخدمين لخليط من ميزات (73.07%) لوغاريثم غابور والشبكة القطبية الدائرية.

English Abstract

Arabic handwritten text recognition (AHTR) has become one of the interesting topics for researchers in recent years due to the increased need to digitize and store these documents in textual form. This thesis focuses on offline AHTR based on part of Arabic words (PAWs). A semi-automatic framework of PAWs extrac tion and ground-truthing was developed, that can be used as a basis for building PAW benchmark data. PAWs clustering and PAWs recognition were developed for handwritten text documents. Line images of KHATT-Database and IFN/ENIT database were used in our experimentation. We analyzed the generated PAWs and studied the frequency and size of different PAWs for the sake of PAW recognition. Different machine-learning techniques were investigated to carry out PAW Identi fication, such as the K-nearest Neighbor with values 1, 3 and 5 for K and support xiii vector machine (SVM). Moreover, a variety of Circular Polar Grid (CPG) that is generated from a set of four low-level features and Gabor features were used in order to choose the most successful ones that will result in the best Correctly Classified Instances. One thousand classes were used from KHATT-Database and 381 from IFN/ENIT-database. The best achieved result was 73.07% of correctly classified instances using only IFN/ENIT-database with a mix of Gabor and CPG features with SVM classifier.

Item Type: Thesis (Masters)
Department: College of Computing and Mathematics > Information and Computer Science
Committee Advisor: Al-katib, Wasfi
Committee Members: Mahmoud, Sabri and Abdel_Al, Radwan
Depositing User: AL-KAF HAS HADDAD HAMED (g201002420)
Date Deposited: 28 Jun 2016 12:22
Last Modified: 01 Aug 2021 12:27
URI: http://eprints.kfupm.edu.sa/id/eprint/139842