Optimal Feature Selection Using Mutual Information for Speech Recognition at Low SNR

Optimal Feature Selection Using Mutual Information for Speech Recognition at Low SNR. Masters thesis, King Fahd University of Petroleum and Minerals.

[img]
Preview
PDF (Esam_Al-Mashabi_969361_Ms_Thesis)
Esam_Al-Mashabi_969361_Ms_Thesis.pdf

Download (2MB) | Preview

Arabic Abstract

تقترح هذه الرسالة طريقة جديدة لاختيار السمات الصوتية المثلى لاستخدامها في أنظمة التعرف الصوتي في بيئة ضوضائية (نسبة الإشارة إلى الضوضاء منخفضة). القاعدة المقترحة تقوم على أساس الاستفادة المثلى من محتوى المعلومات للصفات المختلفة باستخدام مفهوم المعلومات المتبادلة. تعتبر مرحلة استخراج الصفات الصوتية المرحلة الحرجة في أنظمة التعرف الصوتي، لأنها هي الخطوة الأولى في عمليتي التدريب والتعرف ومن ثم تعتمد عليها كل المراحل الأخرى بدرجة كبيرة. هناك مجموعة عديدة من الصفات الصوتية تستخدم في أنظمة التعرف الصوتي إلا أن الكثير منها يكون متماثلاً ومترابطاً ومن أمثلتها (LPC, Cepstrum, LAR). من المتوقع أن مجموعة الصفات الصوتية المثلى ستؤدي إلى تحسن نتائج أنظمة التعرف الصوتية بشكل عام. إن الهدف الرئيسي لهذه الرسالة هو صياغة قاعدة علمية للاختيار الأمثل للصفات الصوتية. تم اختبار هذه القاعدة للتعرف على الأرقام الإنجليزية المجردة في نظام التعرف الصوتي المبني على قاعدة بيانات قياسية. ولتأكيد نجاح التجربة تم إجراء الإختبار على الأرقام العربية المجردة في نظام التعرف الصوتي العربي والذي بنيت قاعدة بياناته من أصوات جمعت محلياً ومن قواعد بيانات معتمدة.

English Abstract

This thesis proposes a new approach for feature selection in speech recognition at low Signal to Noise Ratio (SNR). This concept is based on a two dimensional optimization of information content of different features by using the concept of mutual information. These two dimensions are: maximizing the information content towards the target classes and minimizing it between features. This feature extraction and selection stage is critical stage in speech recognition systems, as it is the first step in both training and recognition, and upon which all other steps are highly dependent. There have been numerous feature sets proposed in speech recognition, many of which are correlated (LPC, Cepstrum, LAR, etc.). The selection of the optimal features from the various features is expected to lead to improved overall recognition accuracy. The main aim of this research is to formulate the problem of feature selection as an optimization problem using information theory concepts. The proposed algorithm was first tested with English isolated word using standard databases. The algorithm was also tested with Arabic language. Our experiments were based on Arabic words obtained from a database that was collected locally. The experimental results showed an improved performance over existing techniques especially at low SNR.

Item Type: Thesis (Masters)
Subjects: Electrical
Department: College of Engineering and Physics > Electrical Engineering
Committee Advisor: Deriche, Mohammed A.
Committee Members: Abdul-Jauwad, Samir H. and Zerguine, Azzedine
Depositing User: ESAM MASHABI (g199693610)
Date Deposited: 24 Jul 2011 12:57
Last Modified: 01 Nov 2019 15:30
URI: http://eprints.kfupm.edu.sa/id/eprint/138513