AUTOMATIC DIACRITICS RESTORATION FOR ARABIC TEXT

AUTOMATIC DIACRITICS RESTORATION FOR ARABIC TEXT. Masters thesis, King Fahd University of Petroleum and Minerals.

[img]
Preview
PDF
Thesis-Final.pdf

Download (3MB) | Preview

Arabic Abstract

تتكوّن الكتابة العربيّة من أحرف وعلامات للتّشكيل، وهذه الأخيرة عادةً ما تحذف للتّسهيل على الكاتب، لأنّ القارئ العربيّ الخبير يستطيع بسهولة استنتاج تلك العلامات لأيّ كلمة عبر سياق النّصّ. ويستعصي هذا على القارئ المبتدئ الّذي ربّما يجد صعوبةً في استنتاجها. كما تعتبر علامات التّشكيل ذات أهمية بالغة لكثير من تطبيقات الحاسب الآلي اللسانية كالتّعرف الآلي على الكلام، والترجمة الآلية، ونطق النصوص المكتوبة. ولذا فمن المهم أن تُستعاد تلك العلامات عند الشروع في أي من هذه التطبيقات لتحسين أدائها. اتبعت الأبحاث المتعلقة بهذا الشّأن إحدى طريقتين: الأولى هي الطريقة الإحصائية والتي تستخدم في غالبها خوارزميات تعلم الآلة، والثانية طريقة تعتمد على قواعد مشتقة من قواعد النحو والإملاء للغة العربية. سعينا في هذه الرسالة البحثية لاتباع طريقة ثالثة تجمع بين الطريقتين السابقتين، والتي من شأنها تحسين دقة التّشكيل الآلي. نقدّم في هذه الرسالة البحثية إسهامين رئيسين: الأوّل بناء مكنز مشكل آليًا، والثاني تطوير مشكل آلي هجين يجمع بين الطريقة الإحصائية والقواعد. وقد قمنا ببناء المكنز من مصادر عدة، سواء كانت مشكلة أو غير مشكّلة، مع مراعاة التنوع في مجالات عدة كالأخبار، والرياضة، والأدب، والدين. ويحتوي هذا المكنز على أكثر من 28,000,000 كلمة من الكتب التراثية، وحوالي 3,000,000 كلمة من اللغة العربية الحديثة. ونبين في هذه الرسالة الطريقة المتبعة في بناء المكنز بشكل تفصيلي وكذلك نعرض إحصاءات شتّى مستخرجة منه. ويعتمد الإسهام الثّاني لهذه الرسالة البحثية على دمج الطريقة الإحصائية مع القواعد في نظام هجين للتّشكيل الآلي. وقد استنتجت القواعد من المكنز بحيث تضمن دقة تقترب من 100%. وتتكون كل قاعدة من عدّة خصائص، كالحرف الحالي والأحرف السّابقة واللاحقة والكلمات الوقفية وهلم جرا. وقد أثبتت النتائج المستخلصة أن استخدام هذه القواعد يحسن أداء ودقة التّشكيل بشكل ملحوظ. أما في الطّريقة الإحصائية، فقمنا باستخدام سلاسل الكلمات والأحرف والوسوم المستخرجة من المكنز، ومن ثمّ قمنا باختيار أفضل تشكيل ممكن (لكل مستوى من المستويات الثلاثة) باستخدام خوارزمية بحثية "نهمة" (greedy) وتبنى هذه الطّريقة على نتائج القواعد سالفة الذكر.

English Abstract

Arabic scripts consist of two primary categories: letters and diacritics. The diacritics are often omitted for convenience, as most experienced readers can easily infer the missing diacritics of a word from its context. This, however, poses a challenge to some readers, such as non-native speakers, who may not be able to infer such diacritics easily. In addition, diacritics play an important role in many Arabic Natural Language Processing (ANLP) applications, such as Automatic Speech Recognition (ASR), Automatic Language Translation (ALT), and Text-to-Speech (TTS) converters. Thus, the automatic restoration of missing diacritics is an essential step to achieve acceptable performance. Studies have approached this problem in two ways; either using machine learning (ML) algorithms or using basic rules that were derived from Arabic grammar and orthography. This thesis shows that by combining the two approaches an improved performance can be achieved. The main contributions of the thesis are: (1) construction of a diacritized corpus, and (2) development of a hybrid diacritizer. In the first contribution, we built a fully diacritized corpus which was collected from different sources, whether already diacritized or not, covering several fields (e.g. news, literature, sports, religion). The developed corpus has more than 28,000,000 words from classical Arabic, and 3,000,000 words from Modern Standard Arabic (MSA). In the thesis, we explain the corpus construction process in details and give in-depth statistics. The second contribution of the thesis is combining the rule-based approach with the statistical approach for automatic restoration of missing diacritics. Rules were inducted from the corpus such that they have near 100% accuracy. We use a varying number of features in the rules, such as the current letter, previous letters, next letters, stop-words, and so on. Our results show that by using these rules, the performance solidly enhances (with WER=13.8% and DER=3.5%) as compared with the mere statistical approach. In the statistical approach, we used word-level N-grams, character-level N-grams, and POS-level N-grams that were extracted from the corpus. Then, to select the best diacritization, on each level, we used a greedy algorithm with a good heuristic that ensures optimality time-wise and accuracy-wise. This approach was built upon the results of the aforementioned rules.

Item Type: Thesis (Masters)
Department: College of Computing and Mathematics > Information and Computer Science
Committee Advisor: Al-Muhtaseb, Husni
Committee Co-Advisor: Elshafei, Mustafa
Committee Members: El-Alfy, Elsayed and Al-Khatib, Wasfi and Eid, Essam
Depositing User: SHAABAN OM EL SAYED (g200594910)
Date Deposited: 01 Apr 2014 06:04
Last Modified: 01 Aug 2021 12:27
URI: http://eprints.kfupm.edu.sa/id/eprint/139145