Arabic Font Recognition

Arabic Font Recognition. Masters thesis, King Fahd University of Petroleum and Minerals.


Download (2MB) | Preview

Arabic Abstract

التعرف الضوئي على نوع الخط العربي المطبوع هي عملية تحديد نوع الخط العربي المطبوع في الصور النصية. وتتمثل أهمية هذه الخطوه في مرحلة ما قبل المعالجة في أنظمة التعرف الضوئي للأحرف العربية عن طريق تحديد نوع الخط وبناءً عليه استخدام نظام التعرف الضوئي المناسب لذلك الخط. وبالرغم من أهمية هذا الموضوع إلا انه لم تتم دراسته بشكل مستفيض مثلما استفيض في دراسة أنظمة التعرف الضوئي للأحرف العربية. في هذا العمل تم تصميم وتطوير نظام فعال لتحديد نوع الخط العربي المطبوع. ونظرًا لعدم توفر قاعدة بيانات تحتوي على عدة خطوط عربية ذوات أحجام وأنماط مختلفة؛ فقد تضمن هذا العمل تصميم وتطوير قاعدة بيانات للخطوط العربية تحتوي على 20 خط، كل خط بدوره يتألف من 10 أحجام وأربعة أنماط مختلفة. كما تمتاز هذه القاعدة بكونها متاحة مجانًا وبدقات متعددة (200dpi, 300dpi, 600dpi). في هذا العمل تم استخراج عدة أنواع من السمات من نص الخط العربي، وتتوزع هذه السمات بين سمات عادية وعددها (54) وسمات أخرى تم استخرجها باستخدام تقنية لوغاريثم غابور وعددها (576). السمات العادية هي: ميزات الانحناء والتقعر، ميزات الاتجاه، ميزات طول الاتجاه، ميزات عد مربع الاتجاه، ميزات مركز الثقل، ميزات عدد القمم العمودية والأفقية، ميزات عدد المكونات السوداء والبيضاء، ميزة موقع أصغر مكون، ميزة لوغاريثم موقع السطر. بينما الميزات الأخرى تم استخراجها بواسطة تقنية لوغارثم غابور باستخدام 8 اتجاهات و4 أحجام. وفي هذا العمل تمت مقارنة نتائج دقة النظام لكل سمة على حدة وفي مجموعات. كما تم عرض النتائج التجريبية الحاصلة من تطبيق هذه الميزات باستخدام قاعدة البيانات التي تم تطويرها في هذا العمل وكذلك باستخدام قاعدة بيانات أخرى.

English Abstract

Arabic font recognition is the process of recognizing the font of a given text image. It may be needed as a preprocessing phase to an Optical Character Recognition (OCR) system which enables it to identify the font of text and then use the pre-trained models of the specific font for the text image. Arabic font recognition has not been studied as extensively as OCR despite of its importance in improving recognition accuracy. A successful Arabic font recognition prototype is designed and developed. Since there is no available database of multi-resolution, multi-font, multi-size, and multi-style text images; this research includes building a database of 20 Arabic fonts in 3 resolutions, 10 sizes, and 4 styles. Six hundred and thirty features are extracted. Fifty four features are classical features (viz. Curvature features (Concave and convex features), Direction features, Direction length features, Box Counting Dimension (BCD) features, Center of gravity features, Number of vertical and horizontal extrema features, Number of black and white components features, Smallest black component features, and Log baseline position features). Five hundred and seventy six features are extracted using Log-Gabor features with 8 orientations and 4 scales. The accuracy computed of each feature independently and in a combination with other features is compared. Experimental results of applying these features on Arabic fonts are presented. The accuracy of these features using a freely available database and our database (K-AFD) compared favorably with the state of art. To our knowledge this is the first work to use these number of fonts, sizes,..etc.

Item Type: Thesis (Masters)
Subjects: Computer
Department: College of Computing and Mathematics > Information and Computer Science
Committee Advisor: Mahmoud, Sabri
Committee Members: Al-Khatib, Wasfi and Ghouti, Lahouari
Depositing User: LUQMAN HAM ABDULLAH HAMOOD (g201002600)
Date Deposited: 10 Jun 2013 11:48
Last Modified: 01 Nov 2019 15:38