Automatic Vocalization of Arabic Text. Masters thesis, King Fahd University of Petroleum and Minerals.
|
PDF
Thesis_v1.81_-_Final.pdf Download (2MB) | Preview |
Arabic Abstract
تمثل علامات التشكيل (الحركات) في اللغة العربية دورا رئيسا في فهم معاني الكلمات وصحة لفظها وفهم المعنى العام للنص، حيث أن الكلمة الواحدة قد تحتمل عدة أوجه في التشكيل، لكل وجه معنىً مختلف. ولهذا السبب يواجه غير العربي صعوبة في قراءة وفهم النصوص العربية غير المُشَكَّلة. وتتطلب العديد من تطبيقات اللغة العربية أن تكون النصوص والكلمات العربية مُشَكَّلة كي تكون نتائج هذه التطبيقات مقبولة، ومن هذه التطبيقات أنظمة التعرف الآلي على الكلام العربي. نعرف التشكيل الآلي على أنه عملية إضافة علامات التشكيل المناسبة إلى النصوص غير المُشَكَّلة أو المُشَكَّلة جزئياً. وتسمي هذه العملية أحيانا باسترجاع علامات التشكيل. وعملية التشكيل الآلي شائعة في عدة لغات منها بعض اللغات اللاتينية واللغات السامية. قمنا في هذا العمل البحثي بتطوير مكنز عربي مشكل تشكيلا كاملا، وطورنا طرقا للتشكيل الآلي للنص العربي. اعتمدنا في عملية تطوير المكنز على مكنز قد سبق إنشاؤه وسمي ب “SENTENCES3”، حيث قمنا بتعريض المكنز إلى معالجات تصحيحية للتأكد من صحة كلمات المكنز واكتمال التشكيل. وكانت النتيجة الوصول إلى كنز جديد أسميناه "تشكيل-2016" كما قمنا بالعمل على مكنز جديد وهو مكنز المصحف، ولقد اخترنا العمل عليه لتأكدنا من دقة المحتوى والتشكيل. عدا عن ذلك، قمنا بتطوير مكنز جديد استهدفنا في محتواه النصوص العربية المعاصرة، حيث إن مكنز "تشكيل-2016" اعتمد على النصوص التقليدية. سمّينا المكنز الجديد بمكنز "أخبار-2016" حيث انه اعتمد على النصوص الإخبارية فقط، ويحتوي المكنز على اكثر من 10 ملايين كلمة. ويتركز الجزء الثاني من هذا العمل البحثي على تطوير طرق لتشكيل النص العربي آليا. واعتمد البحث على استنباط الخصائص التي تساهم في عملية التشكيل ودقته ومن ثم اختيار افضل مجموعة من هذه الخصائص، وللبدء في عملية التشكل تم تطوير برمجية تحتوي على عدة وحدات مترابطة مع بعضها مشكلة نظام التشكيل الآلي. ويستعمل نظام التشكيل أشجار القرار وبالأخص خوارزمية "WEKA J48" يضاف إليها مرحلة "بعد المعالجة" نستخدم فيها نماذج التكرار "N-Gram". لقد تم إجراء العديد "من التجارب للحصول على أدق النتائج الممكنة وافضل نماذجٍ للتشكيل حيث حصل مكنز المصحف على افضل النتائج مقارنة بمكنز "تشكيل-2016". كانت أفضل النتائج لأقل نسبة في الخطأ التشكيلي على مستوى الحرف لمكنز المصحف بنسبة 6% في حالة التشكيل دون تشكيل آخر حرف في الكلمة و9% في حالة التشكيل الكامل. وأما بالنسبة إلى مكنز "تشكيل-2016" فكانت نسبة الخطأ التشكيلي على مستوى الكلمة 18% في حالة التشكيل دون تشكيل آخر حرف في الكلمة و28% في حالة التشكيل الكامل.
English Abstract
Diacritical marks in Arabic play a major role in understanding the meaning of the words, their pronunciations and the overall meaning of the context. A word could have different forms of diacritics and thus different meaning for each form. While native Arabic speakers face no problems in reading and understanding Arabic text with no diacritics, non-native speakers find it difficult. Arabic computer applications such as speech recognition applications or text to speech applications need the Arabic words to be vocalized. Otherwise, using unvocalized text on such applications would add ambiguity to the process and may have a negative impact on the results. Automatic vocalization is the process of inserting diacritics to unvocalized or partially vocalized text. This process, sometimes called "diacritic restoration", is common with different levels in several languages including some Latin and Semitic languages. This research work reports the development process of the updated fully diacritized corpus and Arabic text vocalization using decision trees algorithms. For the corpus development, we redeveloped a previously built corpus, SENTENCES3. The SENTENCES3 corpus was normalized to have it consistent and fully vocalized. We have named the newly corpus as “Tashkeel-2016” Furthermore, we introduced a new corpus which is the MUSHAF, for being accurately vocalized and consistent to be used in text vocalization. A third corpus was also developed. The new corpus targeted Modern Standard Arabic (MSA) in news since the nature of the “Tashkeel-2016”corpus was mostly Classical Text. The news corpus, named “Akhbar-2016”, contains over 10 million words. The second part of the work was Arabic text vocalization. Features extraction was done to come up with features that would help in the classification process. After applying feature extraction, feature selection was performed to select the best set of features. To prepare an appropriate setup for vocalization, several modules were developed. The developed modules communicate together to form the vocalization system. The vocalization system uses decision tree algorithm for classifications. The system also applies a post-processing step of vocalization using N-Gram word models. Many experiments were conducted trying to achieve the highest accuracy and the best performing model. The highest result achieved was for the MUSHAF corpus. Results of 6% and 9% for diacritic error rate (DER) without case ending and a DER with case ending were achieved respectively. For “Tashkeel-2016”experiments, results of 18% and 28% was achieved for both the word error rate (WER) without case ending and WER with case ending respectively.
Item Type: | Thesis (Masters) |
---|---|
Subjects: | Computer |
Department: | College of Computing and Mathematics > Information and Computer Science |
Committee Advisor: | Al-Muhtaseb, Husni |
Committee Members: | Elshafei, Moustafa and Al-Khatib, Wasfi |
Depositing User: | YAHYA MOHAMAD SULIMAN KHRISHE (g201306450) |
Date Deposited: | 29 Nov 2016 11:03 |
Last Modified: | 01 Nov 2019 16:35 |
URI: | http://eprints.kfupm.edu.sa/id/eprint/140134 |