UTILIZING DATA-DRIVEN AND KNOWLEDGE-BASED TECHNIQUES TO ENHANCE ARABIC SPEECH RECOGNITION

UTILIZING DATA-DRIVEN AND KNOWLEDGE-BASED TECHNIQUES TO ENHANCE ARABIC SPEECH RECOGNITION. PhD thesis, King Fahd University of Petroleum and Minerals.

[img]
Preview
PDF
DIA_EDDIN_ABUZEINA_2012_PHD.pdf

Download (4MB) | Preview

Arabic Abstract

تعتبر ظاهرة تغير نطق الكلمات واحدة من العوامل التي تؤدي إلى ضعف الأداء في أنظمة التعرف على الكلام العربي. وتظهر عوامل ضعف الأداء في شكلين أساسين: الأول هو حدوث التغير في النطق داخل الكلمة نفسها، بينما يتجلى العامل الثاني في حدوث التغير بين كلمتين متجاورتين، بحيث تندمج هاتان الكلمتان مع بعضهما مما يؤدي الى اختلاف النطق المفترض بسبب حدوث التداخل وفقدان الحد الفاصل بينهما. إن ظاهرة التغير في النطق سواء على مستوى الكلمة او بين كلمتين متجاورتين تؤدى الى ظهور كلمات جديدة غير مدرجة في القاموس الصوتي، وينتج عن ذلك زيادة في عدد الكلمات الخاطئة في النتائج والتي تؤدي أيضاً إلى انتاج تراكيب لغوية خاطئة. نقترح في هذه الرسالة استخدام معلومات اللغة وبيانات التدريب من أجل نمذجة ظاهرة التغير في نطق الكلمات (على مستوى الكلمة، بين كلمتين، ومشكلة التراكيب اللغوية الخاطئة). تم فحص الطرق المقترحة من خلال إستخدام نظام تعرف على الكلام تم بناؤه في جامعة الملك فهد للبترول والمعادن بإستخدام وسائل التعرف على الكلام (سفنكس) المقدمة من جامعة "كارنيجي ميلون". تم نمذجة ظاهرة التغير في النطق داخل الكلمة الواحدة وذلك بإستخدام طريقة البرمجة الديناميكية من اجل مطابقة سلاسل الفونيمات لإنتاج المتغيرات المقترحة من المدونة الصوتية. وقد أظهر استخدام هذه الطريقة تحسناً ملحوظاً في الأداء بنسبة 1.82 في المئة. كما تمت نمذجة ظاهرة إندماج الكلمات باستخدام ثلاثة طرق منفصلة كالتالي: بإستخدام معلومات اللغة التي تحتوى على القواعد الفونولوجية، إستخدام أقسام الكلام لدمج الكلمات المتجاورة، و بيانات التدريب لدمج الكلمات الصغيرة. وقد أظهر إستخدام هذه الطريق تحسناً ملحوظاً في الأداء. إذ تحسن الاداء بأعلى نسبة بإستخدام طريقة أقسام الكلام حيث كانت النسبة 2.39 في المئة، تلتها طريقة القواعد الفونولوجية بنسبة 2.30 في المئة، وبعدها طريقة دمج الكلمات الصغيرة بنسبة 2.16 في المئة. تم نمذجة ظاهرة الأخطاء التركيبية وذلك بإعادة تقييم الفرضيات الناتجة من نظام التعرف بحيث يتم إعتماد أفضل فرضية بعد عملية التقييم. تم إستخدام المدونة النصية (بعد توصيف كلماتها) من اجل التنقيب عن أكثر التراكيب شيوعاً في اللغة العربية وبالتالي ايجاد أفضل فرضية من حيث تطابقها مع تراكيب اللغة. ولم تظهر هذه الطريقة تحسناً في الأداء.

English Abstract

Pronunciation variation is a well-known phenomenon which leads to performance reduction in speech recognition systems. This performance reduction factor occurs mainly in two forms: within-word pronunciation variation, and cross-word pronunciation variation. The within-word variation occurs inside the word, while the cross-word variation occurs when two successive words interact leading to a different pronunciation in one or two letters. Furthermore, the two words could merge together creating one continuous utterance with no clear boundary between them. In speech recognition, within-word and cross-word pronunciation variations alter the phonetic spelling of words beyond their listed forms in the pronunciation dictionary, leading to a number of out-of-vocabulary word forms, and consequently reducing the speech recognition performance. Pronunciation variation problems could also arise in the form of an incorrectly recognized word sequence with out-of-language syntax. In this thesis we propose knowledge-based and data-driven techniques to solve these three problems (i.e. within-word, cross-word, and out of correct order syntactical structures). The proposed methods were investigated on a modern standard Arabic speech recognition system using Carnegie Mellon University Sphinx speech recognition engine. The first problem (within-word variations) was modeled using the data-driven approach which utilizes a dynamic programming method (sequence alignment for phonemes) to distill variants from the pronunciation corpus. The results showed that this technique achieved significant improvements of 1.82%. The second problem (cross-word variations) was modeled using three different tracks: a knowledge-based approach (using Arabic phonological rules), a knowledge-based approach (using part of speech tagging), and a data-driven approach (by merging small words). The results showed that the three above mentioned tracks achieved significant improvements. The part of speech tagging approach achieved the highest improvement of 2.39%, followed by the phonological rules approach, achieving 2.30% and finally the merging small words approach achieving 2.16%, over the baseline system. The third problem was modeled using a data mining algorithm to extract the best language syntax rules, that can be later used for rescoring the N-best hypotheses. A Stanford Arabic tagger was used for the tagging process. This method, nevertheless, did not lead to a significant improvement.

Item Type: Thesis (PhD)
Subjects: Engineering
Department: College of Computing and Mathematics > Information and Computer Science
Committee Advisor: Elshafei, Moustafa
Committee Members: Abdel-Aal, Radwan and Alghamdi, Mansour and Al-Khatib, Wasfi
Depositing User: DIA ABUZEINA
Date Deposited: 18 Mar 2012 12:48
Last Modified: 01 Nov 2019 15:30
URI: http://eprints.kfupm.edu.sa/id/eprint/138595