PRONUNCIATION VARIATION MODELING FOR IMPROVING SPEECH RECOGNITION OF HOLY QURAN RECITATION. PhD thesis, King Fahd University of Petroleum and Minerals.
PDF
FinalPrintedCopy_PhD_THESIS_Amro.pdf Restricted to Repository staff only until 30 May 2021. Download (3MB) |
Arabic Abstract
مع تطور التقنيات واستخدام أنظمة التعرف الآلي على الكلام البشري في شتى المجالات، زادت الحاجة إلى تطويع وتحسين أداء هذه الأنظمة لخدمة القرآن الكريم في جميع تطبيقاته. نعرض في هذا البحث الجهد المبذول من اجل تحسين أداء أنظمة التعرف على الكلام أثناء تلاوة القران الكريم. تؤثر العديد من الظواهر سلبا على أداء أنظمة التعرف الآلي على الكلام خلال تلاوة القران ومنها ظاهرة تغير النطق داخل الكلمة الواحدة، وتغير النطق في عدة كلمات متجاورة. وتنجم عن هذه الظاهرة سواء كانت على مستوى كلمة أو عدة كلمات ظهور كلمات جديدة غير ممثلة في القاموس الصوتي، والذي يقلل دقة التعرف الآلي على الكلمات بسبب زيادة نسبة الكلمات الخاطئة في النتائج والتي تؤدي أيضا إلى إنتاج تراكيب لغوية خاطئة. تركز هذا الرسالة على الاستفادة من قواعد الوقف والابتداء وبعض قواعد التجويد واللغة العربية من أجل بناء نظام التعرف على الكلام خلال تلاوة القران الكريم. حيث يؤدي تحسين أداء هذه الأنظمة في المساعدة لتطوير أداء الكثير من التطبيقات التي تعتمد عليها، ومنها التطبيقات التعليمية التي تهتم بأخطاء التلاوة وقياس مستوى حفظ القارئ، والبحث في نص القرآن الكريم أثناء التلاوة. لأجل ذلك أعددنا قاعدة صوتية للقرآن الكريم وحجمها سبع ساعات صوتية ونصف تقريبا لثمانية قرّاء مشهورين من الحرم المكي خلال أداء الصلوات في بيئة حقيقية تحتوي على الضوضاء. وطورنا نظاما للتعرف على الكلام باستخدام أداة "سفنكس" من إصدار جامعة "كارنجي ميلون". وقد استفدنا لهذا الغرض من بعض الأدوات التي بنيت في جامعة الملك فهد للبترول والمعادن، ومنها: برنامج التمثيل اللفظي لنصوص اللغة العربية الفصحى الحديثة. حيت طور هذا البرنامج ليتوافق مع نصوص القرآن الكريم من خلال حذف القواعد التي تستخدم اللهجات العامية وإضافة القواعد اللغوية المتخصصة التي تمثل نمذجة ظاهرة التغير في النطق على مستوى أي كلمة وردت في نص القرآن الكريم. وقد استخدمنا التعابير القياسية (regular expressions) في بناء نظام لنمذجة ظاهرة اندماج الكلمات الناتجة عن قواعد التجويد التالية: أحكام النون الساكنة والتنوين، وأحكام الميم الساكنة، وأحكام الإدغام بأنواعها، وأحكام الوقف والابتداء. ومن خلال استخدام هذه الطريقة وصل أداء نظام التعرف خلال مرحلة الاختبار 1.2% خطأ على مستوى الكلمة (WER). وتعتبر هذه النتيجة متميزة إذا ما أخذ في الاعتبار أن النظام بُني في بيئة حقيقة مليئة بالضوضاء.
English Abstract
Automatic speech recognition has witnessed dramatic growth in many applications due to advances in information technology and communication. Such growth has motivated us to adapt and improve the performance of automatic speech recognition systems that serve applications related to the Holy Quran. Automatic speech recognition has been utilized in reciter identification, articulation (Makharij) recognition, Correct Quran Pronunciation (Tajweed) rules checking and Holy Quran memorization aid tools, to mention a few. In this thesis, we present our efforts to enhance the performance of automatic Holy Quran recitation recognition in noisy environments. We have developed a Holy Quran speech corpus of 7.5 hours duration recited by seven renowned Makkah Holy mosque (Al-Masjid Al-Haram) authorized reciters who are native Arabic speakers. We have, also, utilized CMU Sphinx and some existing tools that were originally built for modern standard Arabic at King Fahd University of Petroleum & Minerals (KFUPM). A baseline system based on these tools was developed and tested, resulting in a word error rate (WER) of 15.8%. Most recognition errors were found in substitutions and insertions at the end of utterances, suggesting the need to modify the acoustic model, and consequently the phonetic dictionary and the language model. The phoneme set size dropped from 46 phonemes to 36, excluding the ones related to modern standard Arabic that do not exist in Holy Quran recitation. This modification reduced the WER to 14.4%. To deal with noise, the system was enhanced by mapping non-speech noise sounds using the filler dictionary, reducing the WER to 10.4%. Next, we addressed the issue of improving the recognition accuracy by including Tajweed rules in the dictionary and the language model. We, first, developed a knowledge-based technique that models inter-word pronunciation variation as a preprocessing step. This technique led to an improvement of performance to become 9.2% WER. Then, we handled the variations resulting from the stops (Al-Waqf) and resumes (Al-Ibtidaa) during the recitation, which led to a 7.8% WER. Finally, we proposed and implemented a post-processing step that is based on building a Holy Quran information retrieval system. This approach improved the overall recognition accuracy by achieving a word error rate (WER) of 4.1% for sphinx fast-mode and 2.1% WER for sphinx slow-mode. This result is a significant improvement since our system was built in a noisy environment with the phonetic dictionary being automatically generated.
Item Type: | Thesis (PhD) |
---|---|
Subjects: | Computer Research > Information Technology Research > Engineering |
Department: | College of Computing and Mathematics > Information and Computer Science |
Committee Advisor: | Elshafei, Prof. Moustafa |
Committee Co-Advisor: | Al-Khatib, Dr. Wasfi |
Committee Members: | Al-Muhtaseb, Dr. Husni and Alghamdi, Prof. Mansour and Ahmed, Dr. Moataz |
Depositing User: | MOHAMMAD ISMAIL AMRO (g200806140) |
Date Deposited: | 31 Dec 2017 04:57 |
Last Modified: | 01 Nov 2019 16:38 |
URI: | http://eprints.kfupm.edu.sa/id/eprint/140563 |