AUTOMATIC EXTRACTION OF ARABIC SUBWORD UNITS FOR CONTINUOUS SPEECH RECOGNITION

AUTOMATIC EXTRACTION OF ARABIC SUBWORD UNITS FOR CONTINUOUS SPEECH RECOGNITION. PhD thesis, King Fahd University of Petroleum and Minerals.

[img]
Preview
PDF (AUTOMATIC EXTRACTION OF ARABIC SUBWORD UNITS FOR CONTINUOUS SPEECH RECOGNITION)
AUTOMATIC_EXTRACTION_OF_ARABIC_SUBWORD_UNITS_FOR_CONTINUOUS_SPEECH_RECOGNITION.pdf - Submitted Version

Download (9MB) | Preview

Arabic Abstract

تهتم الأبحاث الحديثة في مجال التعرف على الأصوات بالتعرف على الصوت المتصل المستقل عن المتحدث. إن تمييز الصوت المتصل هو أكثر تحديا من غيره من الاصوات وذلك بسبب التغير الكبير في نطق الكلمات أثناء الكلام المتواصل ويعزى ذلك إلى لهجة وعمر وجنس المتكلم وإلى قرب أو بعد الكلمات عن بعضها. إن النموذج الصوتي الذي يمثل كلمات لغة ما يسمى بالألفون. وقد وجدت بعض الدراسات التي تحقق في مدى دقة وأمثلية الفونات الخاصة باللغة الإنجليزية، في حين لا يوجد مثل هذه الدراسات للألفونات العربية والمستخدمة حاليا في تمييز الصوت المتصل. ومن الجدير بالذكر أنه وخلال هذه ألأطروحة تعرضىنا للعديد من خوارزميات وطرق التصنيف والتقطيع للبيانات الصوتية وقمنا بتقييمها بهدف الاستفاده منها في اشتقاق الوحدات الصوتية الأساسية للصوت العربي المتصل. كما قمنا باستحداث آلية مهجنة من طريقتين وهما نموذج ماركوف الخفي والشبكة العصبية الاصطناعية (HMM/LVQ-ANN) لتمييز الألفونات العربية الموضوعة من قبل خبراء اللغة. بالاعتماد على طرق الاستخلاص المباشر من البيانات الصوتية نفسها ، حيث قمنا بدراسة إستخلاص الوحدات الصوتية الأساسية العربية الأكثر ملائمة للغة. فقد قمنا بانتاج عدة مجموعات من الوحدات الصوتية الاساسية وبأحجام 30، 50، 70، 90 و 150 وقمنا باستخدام هذه المجموعات في انتاج المدونات الصوتية المقابلة لكل مجموعه. لقد تبين لنا أن المجموعة المكونة من 70 عنصرا من الوحدات الصوتية الأساسية كانت الأفضل من ناحية الدقة عند استخدامها في تمييز الصوت سواء على مستوى الوحدات الصوتية الأساسية أو على مستوى الكلمات . حيث بلغت نسبة الأولى 79.3% والثانية 34.08% و بالرغم من أن النسبة على مستوى الكلمات غير مقنعه إلا أن هذه الطريقة تعتبر فريدة من نوعها في مجال استخلاص الوحدات الصوتية الأساسية العربية بطريقة الاستخلاص المباشر من البيانات الصوتية.

English Abstract

Recent research in speech recognition focuses on speaker independent continuous speech recognition. Continuous speech is more challenging because of variability in the words pronunciations, due to dialects, speaker age, gender, emotional status as well as the nearby words. The acoustic units, used in representation of language words are called phones. Some existing studies investigated the optimality of English phone set, while no study has been done to investigate the optimality of the Arabic phone set, which is currently used in Arabic speech recognition. In this research, multiple clustering and segmentation techniques were evaluated on the current Arabic phoneme set for the purpose of automatic extraction of Arabic sub-word units. A hybrid HMM/LVQ-ANN recognition methodology for the existing Arabic phones set was also conducted. Based on data-driven methods, we studied the determination of the most suitable Arabic sub-word units. We derived different sets of Arabic sub-word units with sizes 30, 50, 70, 90 and 150, and used them in generating the respective dictionaries. The set with 70 sub-word units showed the best recognition rates of 79.3% at the sub-word level and 34.08% at the word level. Although the recognition rate at the word level is not satisfactory, this work is the first such attempt in extracting Arabic sub-word units using a data-driven approach.

Item Type: Thesis (PhD)
Department: College of Computing and Mathematics > Computer Engineering
College of Computing and Mathematics > Information and Computer Science
Committee Advisor: elshafei, mustafa
Committee Co-Advisor: Al-Khatib, Wasfi G.
Committee Members: al-muhtaseb, husni and abdel-aal, radwan and alghamdi, mansour
Depositing User: NAHAR KHAL MOHAMED OQLA (g201002400)
Date Deposited: 14 Jul 2013 12:38
Last Modified: 01 Aug 2021 12:27
URI: http://eprints.kfupm.edu.sa/id/eprint/138963