AN ADAPTIVE BAG-OF-FEATURES FRAMEWORK FOR ARABIC HANDWRITING RECOGNITION

AN ADAPTIVE BAG-OF-FEATURES FRAMEWORK FOR ARABIC HANDWRITING RECOGNITION. PhD thesis, King Fahd University of Petroleum and Minerals.

[img]
Preview
PDF (Ph. D. Dissertation)
Dissertation_M.Assayony_2017.pdf

Download (3MB) | Preview

Arabic Abstract

نموذج حقيبة السمات الملائم للتعرف الآلي على الكتابة العربية اليدوية يعتبر استخلاص السمات مرحلة مهمة في نظم التعرف على الأنماط. لقد أدى التقدم العلمي في مجال الرؤية بالحاسوب وتعليم الآلة إلى تطوير نماذج عامة لديها القدرة على استخلاص سمات قوية لمجالات مختلفة. نستغل في هذه الأطروحة نموذج حقيبة السمات في مجال التعرف الآلي على الكتابة العربية اليدوية ، حيث أننا نستخدم خصائص الكتابة اليدوية في تحسين أداء النموذج وكذلك في تحسين نوعية السمات المستخلصة. لقد قمنا بإنشاء نوذج أساسي لحقيبة السمات استطاع أن يحقق نتائج قياسية في التعرف على الأرقام والكلمات العربية المكتوبة يدوياً. كما أدى استغلالنا لخصائص الصور المتضمنة للنصوص وخصائص الكتابة اليدوية إلى تحسين أداء النموذج بشكل ملحوظ. بعد ذلك قمنا بربط النموذج مع نظام آلي للتعرف على الكتابة اليدوية مبني على نماذج ماركوف الخفية. خلال ذلك تم توليف المرحلة الأولى من النموذج لتتلاءم مع تقنية النوافذ المنزلقة، كما تم الاستفادة من خط الكتابة العربية الافتراضي في فرض التموقع في السمات المستخلصة، وفي استخدام نماذج ماركوف الخفية متعددة السبل بطريقة جديدة كان لها أثر ملحوظ في تحسين دقة التعرف.بتلك التحسينات مجتمعة تمكن النظام من تحقيق دقة تعرُّف بلغت 64.30% على مستوى الحروف في قاعدة البيانات (خط)، وهي أفضل من النتائج المنشورة على نفس قاعدة البيانات وبنفس النظام الذي تم تدريبه باستخدام السمات الإحصائية التقليدية. من أجل المقارنة، فقد أنشأنا نظام تعرف آخر باستخدام نماذج ماركوف الخفية المبنية على توزيعات برنوللي، والذي يمتاز بقدرته على استخدام التمثيل الثنائي للصور كسمات. تمكن النظام من تحقيق دقة تعرف بلغت 63.28% على مستوى الحروف في قاعدة البيانات (خط)، وهي مقاربة للنتائج التي حققناها باستخدام نموذج حقيبة السمات مع نماذج ماركوف الخفية التقليدية. ثم اقترحنا أسلوبين لكي نقلص من أبعاد المتجهات الثنائية ولنفرض تموقع مكاني ضمنها. كلا الأسلوبين حقق نتائج مقاربة، إضافة إلى الكفاءة الحاسوبية التي أظهراها. يؤكد هذا العمل على أن استغلال سياق النص وخصائص الكتابة اليدوية وكذلك التطويع الدقيق للنموذج تودي إلى تحسين دقة التعرف على الكتابة العربية اليدوية.

English Abstract

Feature extraction is a crucial stage of pattern recognition systems. The advances in computer vision and machine learning have developed generic frameworks that could produce robust features for different domains. In this dissertation, we utilize the Bag-of-Features (BoF) framework for Arabic handwritten text recognition. We use the characteristics of handwritten text to improve the framework performance and enhance the quality of the produced features. In this work, we have established a baseline for BoF framework that achieved state-of-the-art in recognizing isolated Arabic handwritten digits and subwords. Utilizing the characteristics of text images and handwritten text have significantly improved the framework computational performance. The framework is integrated with a handwriting recognition system based on Hidden Markov Models (HMMs). The first stage of the framework is adapted to the sliding window technique and the writing baseline of Arabic text is utilized for imposing localization in the produced features. The writing baseline has also inspired us to utilize multi-stream HMMs in a novel approach that significantly improved the recognition accuracy. In including the above enhancements, the recognition system achieved character recognition accuracy of 64.30% on KHATT database which is better than the published accuracies on the same database using the same recognizer trained using traditional statistical features. For the sake of comparison, we have implemented a handwriting recognition system based on Bernoulli Hidden Markov Models (BHMM) in which binary image representations are used as features. Our implementation has achieved character recognition accuracy of 63.28% on KHATT database which is comparable to the results we have achieved using the BoF with the traditional HMMs. We have proposed two approaches in order to reduce the dimensionality of the binary observations and to impose spatial localization. The two approaches achieved comparable recognition accuracies, in addition to the computational efficiency they have shown. This work indicates that exploiting the context and the characteristics of Arabic handwritten text images as well as the careful adaptation of the framework improved the recognition accuracies.

Item Type: Thesis (PhD)
Subjects: Computer
Department: College of Computing and Mathematics > Information and Computer Science
Committee Advisor: Mahmoud, Sabri
Committee Members: Selim, Shokri and Alshayeb, Mohammad and Abu-Amara, Marwan and Ghouthi, Lahouari
Depositing User: ASSAYONY M OMER (g201102150)
Date Deposited: 28 Sep 2017 06:36
Last Modified: 31 Dec 2020 06:50
URI: http://eprints.kfupm.edu.sa/id/eprint/140263