REAL-WORD ERROR DETECTION AND CORRECTION IN ARABIC TEXT

REAL-WORD ERROR DETECTION AND CORRECTION IN ARABIC TEXT. Masters thesis, King Fahd University of Petroleum and Minerals.

[img]
Preview
PDF
Majed's_THESIS_.pdf

Download (2MB) | Preview

Arabic Abstract

التدقيق الإملائي هوعملية إيجاد وتصحيح الأخطاء الإملائية، وتعد المدققات الإملائية من الأدوات الهامة لإعداد الوثائق ومعالجة النصوص والبحث واسترجاع الوثائق. وتمثل مهمة كشف وتصحيح الأخطاء الإملائية للكلمات في النص تحديا كبيراً حيث تعمل معظم المدققات الإملائية على مستوى الكلمة محا و لةً كشف وتصحيح الأخطاء التي ليست في القاموس. وقد استخدم عدد قليل منها تقنيات العمل على أخطاء الكلمات الحقيقية )وهي الأخطاء الإملائية والكلمات في النص التي تحدث عندما يعتزم المستخدم على كتابة كلمة ولكن عن طريق الخطأ يقوم بكتابة كلمة صحيحة في القاموس غير الكلمة المرادة وغالبا ماتكون غير مناسبة في السياق.( وتعد هذه واحدة من المسائل الصعبة في معالجة النص. علاوة على ذلك، فإن معظم التقنيات المقترحة حتى الآن أجريت على اللغات اللاتينية، بينما لم تلقى اللغة العربية الكثير من الاهتمام، وخاصة بالنسبة لأخطاء الكلمات الحقيقية .تناولنا في هذه الأطروحة أخطاء الكلمات الحقيقية، فقمنا بتصميم وتطوير نموذج لمدقق لغوي غير مع ل م unsupervised لكشف وتصحيح الأخطاء الحقيقية في النص العربي بإستخدام نماذج اللغة على مستوى الكلمة word n-grams . كما قمنا بتصميم وتطوير نموذج لمدقق لغوي معل م supervised لكشف وتصحيح الأخطاء الحقيقية في النص العربي بإستخدام تقنية نافذة الكلمات لحساب إحتمالات كلمات السياق و نماذج اللغة على مستوى الكلمة word n-grams لمجموعات الإلتباس confusion sets )وهي مجموعة من الكلمات التي من المحتمل أن تشكل لبساً مع بعضها البعض للمستخدم( و التي تم جمعها خلال هذا العمل. وقد قمنا بتقييم النموذج و حللنا النتائج . وقد أظهرت النتائج دقة تصحيح عالية، إلا إنه لم يتسن لنا مقارنة نتائجنا مع غيرها من التقنيات المنشورة لعدم وجود بيانات مرجعية موحدة لتصحيح أخطاء الكلمات الحقيقية في النص العربي.

English Abstract

Spell checking is the process of finding misspelled words and possibly correcting them. Spell checkers are important tools for document preparation, word processing, searching, and document retrieval. The task of detecting and correcting misspelled words in a text is challenging. Most of the modern commercial spell checkers work on word level with the possibility of detecting and correcting non-word errors. However, few of them use techniques to work on real-word errors. This is one of the challenging problems in text processing. Moreover, most of the proposed techniques so far are on Latin script languages. However, Arabic language has not received much interest, especially for real-word errors. In this thesis we address the problem of real-word errors using context words and n-gram language models. We implemented an unsupervised model for real-word error detection and correction for Arabic text in which N-gram language models are used. Supervised models are also implemented that use confusion sets to detect and correct real-word errors. In the supervised models, a window based technique is used to estimate the probabilities of the context words of the confusion sets. N-gram language models are also used to detect real-word errors by examining the sequences of n words. The same 13 language models are also used to choose the best correction for the detected errors. The experimental results of the prototypes showed promising correction accuracy. However, it is not possible to compare our results with other published works as there is no benchmarking dataset for real-word errors correction for Arabic text. In addition, conclusions and future directions are also presented.

Item Type: Thesis (Masters)
Subjects: Computer
Department: College of Computing and Mathematics > Information and Computer Science
Committee Advisor: Mahmoud, Sabri A.
Committee Members: Abdel-Aal, Radwan and Al-Khatib, Wasfi
Depositing User: AL-JEFRI M MOHAMMED ABDULQADER (g200804640)
Date Deposited: 29 May 2013 11:14
Last Modified: 01 Nov 2019 15:38
URI: http://eprints.kfupm.edu.sa/id/eprint/138889