Spell Checking and Correction for Arabic Text Recognition

Spell Checking and Correction for Arabic Text Recognition. Masters thesis, King Fahd University of Petroleum and Minerals.

[img]
Preview
PDF
Spell_Checking_and_Correction_for_Arabic_Text_Recognition.pdf

Download (1MB) | Preview

Arabic Abstract

تعد مشكلة التدقيق والتصحيح الإملائي واحدة من المشاكل النشطة بحثيا في مجال معالجة اللغة الطبيعية. وتعود هذه الأهمية إلى حقيقة إنها مفيدة في مجالات عدة مثل معالجة النصوص، إسترجاع المعلومات، تصحيح القواعد النحوية والترجمة الآلية. هذا بالإضافة الى أهميتها في تصحيح أخطاء التعرف الضوئي على الحروف (OCR). في هذه الأطروحة تم تصميم وتطوير نموذج التدقيق والتصحيح الإملائي للنص العربي. ويتكون هذا العمل من مكنز نص عربي مجمع من موضوعات مختلفة مثل الأخبار والقصص القصيرة والكتب. وباستخدام عدة أنواع من النماذج اللغوية (ان-غرام والقاموس). استخدمنا المحلل الصرفي العربي لـ Buckwalter (BAMA)، والبحث في القاموسDictionary Look-up ونماذج اللغة على مستوى الحرف character n-grams للتدقيق الإملائي. و قد استخدمنا تقنية تحرير المسافة edit distance ، نماذج اللغة على مستوى الكلمة word n-grams و مصفوفة الإلتباس (OCR confusion) للتصحيح الإملائي. ولإختبار نموذجنا للتدقيق الإملائي والتصحيح، فقد قمنا باستخدام مجموعتين من البيانات. المجموعة الأولى، بيانات النص العربي المتعرف عليه آليا، والتي تم توليدها من نظام التعرف الضوئي على الكتابة العربية و الذي تم تطويره في جامعة الملك فهد للبترول والمعادن. والمجموعة الثانية، بيانات تم توليدها بواسطة الحاسوب وقد تم إعدادها بأخذ نص عادي صحيح ، و إدراج ثلاثة أنواع من الأخطاء عشوائيا وهي الإدراج أو الحذف أو الإستبدال في النص. وقد تمت مقارنة دقة نتائج تقنيات التدقيق الإملائي من حيث الشمولية (recall) والدقة (precision) و قياس ف1 ((F1-measure وتم جمع نتائج تقنيات المحلل الصرفي العربي لـ Buckwalter والبحث في القاموس ونموذج اللغة على مستوى الحرف وتم عرضها وتحليلها. وقد تم الحصول على أفضل النتائج بجمع المحلل الصرفي العربي لـ Buckwalter (BAMA) والبحث في القاموس Dictionary Look-up. كما تم عرض وتحليل دقة نتائج تقنيات تحرير المسافة ونماذج اللغة على مستوى الكلمة word n-grams و مصفوفة الإلتباس (OCR confusion ) للتصحيح الإملائي. وقد أظهرت النتائج إن إستخدام تحرير المسافة مع تقنيات نماذج اللغة أعطى نتائج جيدة على كل من بيانات النص العربي المتعرف عليه آليا والبيانات المولدة بواسطة الحاسوب

English Abstract

The problem of automatic spell checking and correction is one of the active research problems in the area of Natural Language Processing (NLP). The importance of spell checking and correction originates from the fact that they are useful in many fields such as, word processing, information retrieval, grammar correction and machine translation. In addition, they are important in correcting errors in OCR. In this thesis, a successful spell checking and correction prototype for Arabic text is designed and developed. This work consists of collecting Arabic text corpus from different topics such as news, short stories, and books. Several types of language models (N-gram and dictionary) are used. For spell checking, we used Buckwalter’s Arabic morphological analyzer (BAMA), a dictionary look-up and a language model on character level (character n-grams). For spell correction, we used edit distance technique, N-grams language models (word n-grams) and OCR confusion matrix. In order to test our spell checking and correction prototype, two types of data sets are used. The first set, Arabic Text Recognition (ATR) data, which is generated from an OCR system developed at KFUPM. The second set, a Computer Generated (CG) data, which is prepared by taking a normal correct text and randomly introducing three types of errors (insert, delete and replace). The accuracy results of spell checking techniques are compared in terms of recall, precision and F1-measure. The results of combining the two techniques (viz. Buckwalter’s Arabic morphological analyzer, dictionary look-up and language model on character level) are presented and analyzed. The best method is the one which combine the Buckwalter’s Arabic morphological analyzer (BAMA) and the dictionary look-up. The accuracy results of spell correction techniques are presented and analyzed (viz. edit distance, language model on word level and OCR confusion matrix). The results show that the edit distance and language model techniques give good results on the Arabic Text Recognition (ATR) data and Computer Generated (CG) data.

Item Type: Thesis (Masters)
Subjects: Computer
Research > Information Technology
Department: College of Computing and Mathematics > Information and Computer Science
Committee Advisor: Mahmoud, Sabri
Committee Members: Al-Khatib, Wasfi and Al-Muhtaseb, Husni
Depositing User: ADNAN MAHDI (g200704210)
Date Deposited: 22 Apr 2012 07:22
Last Modified: 01 Nov 2019 15:35
URI: http://eprints.kfupm.edu.sa/id/eprint/138619