MORPHOLOGICAL ANALYSIS-BASED ARABIC SPELL CHECKING AND CORRECTION

MORPHOLOGICAL ANALYSIS-BASED ARABIC SPELL CHECKING AND CORRECTION. Masters thesis, King Fahd University of Petroleum and Minerals.

[img]
Preview
PDF
TamimFinalThesis_2017.pdf

Download (3MB) | Preview

Arabic Abstract

التدقيق الإملائي هو عملية اكتشاف الأخطاء الإملائية مع إمكانية تصحيحها. وتعد الحاجة إلى التدقيق الإملائي التلقائي من الوظائف المهمة في كثير من التطبيقات وخاصة تلك المتعلقة بتحرير النصوص. في هذه الأطروحة حاولنا تناول مشكلة اكتشاف وتصحيح الأخطاء الإملائية وأخطاء الكلمات الحقيقية. ويتم ذلك باستخدام عدة أدوات طورت لهذا الغرض وهي: التحليل الصرفي و نموذج الأخطاء ونموذج اللغة المعتمد على نماذج ماركوف المخفية. قمنا بتطوير وتوسيع محلل صرفي (SWAM) للنص العربي. يقوم المحلل الصرفي باختيار التحليل المناسب وفقاً للسياق بالإعتماد على نماذج ماركوف المخفية (HMM). تم توظيف إمكانيات المحلل الصرفي لتطوير وبناء نموذج للأخطاء . يعتمد نموذج الأخطاء على عدة مكانز للغة العربية يتعلم من خلالها أنماط الأخطاء. يستطيع نموذج الأخطاء توليد وترتيب مقترحات لنطاق واسع من أخطاء اللغة ، وكذلك يمكن استخدامه لتحليل ومعرفة أنواع الأخطاء اللغوية لأي مكنز. وتم كذلك اقتراح مدقق لمعالجة انواع متعددة من الأخطاء. المدقق الإملائي هو عبارة عن دمج للمحلل الصرفي ونموذج الأخطاء بالإضافة إلى خوازمية للتصحيح تعتمد على نماذج ماركوف المخفية. وبالإضافة إلى ذلك، تم دمج نظامين لاكتشاف الأخطاء الإملائية وأخطاء السياق ليتم مقارنتهما مع المدقق الإملائي المقترح. وقد أظهرت نتائج التحليل الصرفي نسبة دقة 97.13% للجذور و 98.20% للجذوع و 95.80 % بالنسبة للمصادر باستخدام المكنز (NEMLAR). بالنسبة لنموذج الأخطاء فقد أظهرت النتائج باستخدام المكنز QALBقدرة النموذج على مساندة عملية تصحيح الأخطاء بنسبة 84%، وتزداد هذه النسبة بزيادة حجم المكنز المستخدم لتعلم الأخطاء. تم كذلك تقييم أداء المدقق الإملائي باستخدام المكانز QALB و KFUPM وتم مناقشة النتائج وتوضيح ألية تطويرها في المستقبل.

English Abstract

Spell checking is the process of locating spelling errors and possibly correcting them. The need for automatic spell checking detection and correction capabilities is vital in most state of the art text editing related applications. In this thesis, we address the problem of Arabic spell checking detection and correction for non-word and real-word errors. This is accomplished through the development of a morphological analyzer, an error patterns model and a hidden Markov Model (HMM) based language model. A morphological analyzer that is based on the Sliding Window Asynchronous Matching (SWAM) algorithm was fully implemented and extended to provide morphological features for a running text. The morphological analyzer uses HMMs to disambiguate morphological features of the analyzed word based on context. The morphological analyzer functionalities are used to develop an error patterns model. The error model learns the error patterns of the Arabic language based on an already annotated error corpora. The error model generates and ranks candidate corrections for wide ranges of Arabic errors. It can also be used for analyzing error types for any error annotated corpora. These systems have been integrated into a general spell-checker prototype system that is capable of handling non-word and real-word-errors. In addition, previously developed non-word and real-word error detection and correction systems have also been integrated into the prototype system. The results of the morphological analyzer reported an accuracy of 97.13% for roots, 98.20% for stems and 95.80% for lemmas, based on NEMLAR corpus. In the case of the error model, the effectiveness of using the error model were evaluated using QALB error corpus. The results show that the model can help in the correction process for any spelling correction system with more than 84% coverage; this effectiveness can be improved by including more corpora in the learning process. The general spellchecker was evaluated using QALB and KFUPM corpora. Results of the general spellchecker are analyzed and future directions to improve the spellchecking detection and correction are provided.

Item Type: Thesis (Masters)
Subjects: Computer
Department: College of Computing and Mathematics > Information and Computer Science
Committee Advisor: Al-Khatib, Wasfi G.
Committee Members: Ghouti, Lahouari and Mohammed, Salahadin A and Abu-Amara, Marwan
Depositing User: ALNETHARY SALAH ABDALLAH (g201106230)
Date Deposited: 14 May 2017 12:07
Last Modified: 31 Dec 2020 05:59
URI: http://eprints.kfupm.edu.sa/id/eprint/140311