SELF-LEARNING TECHNIQUES FOR ARABIC SPEECH SEGMENTATION AND RECOGNITION

SELF-LEARNING TECHNIQUES FOR ARABIC SPEECH SEGMENTATION AND RECOGNITION. PhD thesis, King Fahd University of Petroleum and Minerals.

[img]
Preview
PDF
E_print_PhD_Thesis_Temp_My_work._v5.pdf - Submitted Version
Available under License Creative Commons Attribution Non-commercial No Derivatives.

Download (1MB) | Preview

Arabic Abstract

يعتبر الكلام من أهم وسائل التواصل بين البشر.و من التطبيقات المهمة في هذا المجال هو كيف يستطيع النظام أو الآلة من خلال الكلام التعرف على مفهوم الصوت واتخاذ القرار المناسب. إن من أحد الطرق المهمة في التعرف على الكلام استخدام تقنية تقطيع الصوت إلى مقاطع. هذه المقاطع من الممكن أن تكون كلمات أو مقاطع لفظية أو مقاطع صوتية. ومن خلال الدراسات السابقة من الناحية العملية فإن هذه المقاطع لها أهمية كبيرة في التعرف على قراءة القرآن. ولعمل التقطيع في الصوت يوجد نوعين: التقطيع الضمني والتقطيع التصريحي. في التقطيع التصريحي تعتمد على معرفة اللغة مسبقا قبل التقطيع ويقوم على مقاطع صوتية ثابتة الزمن حيث أن أغلب الدراسات في هذا النوع تعتمد على نظام ماركوف الخفي. بينما في التقطيع الضمني يعتمد بشكل رئيسي على التغير في إشارة الصوت دون الاعتماد على زمن ثابت للمقطع. إن الهدف الرئيسي من هذه الرسالة هو تطوير نظام التقطيع الآلي والتعرف على هذه المقاطع اللفظية في القرآن الكريم. في هذه الرسالة قمنا بتطوير نظام جديد بحيث يتم إدخال الآية القرآنية ومن ثم يتم تقطيع الآية إلى مقاطع لفظية خاصة بالقرآن الكريم وذلك عن طريق استخدام ملامح وميزات متخصصة بالقرآن الكريم. بالإضافة إلى ذلك قمنا باستخدام خاصية مقياس العشوائية في الصوت والتي تعتبر أول مرة يتم فيها استخدام هذه الخاصية في القرآن الكريم. كما قمنا بعمل دمج بين الخصائص الأولية والحصول على المتغيرات الأمثلية عن طريق استخدام خوارزمية الجينات الوراثية والتي من خلالها تم الحصول على نسبة ممتازة جدا في النتائج. كما قمنا في الرسالة بعمل طريقتين للتعرف على المقاطع الصوتية: الطريقة الآولى باستخدام خاصية الشجرة والطريقة الثانية استخدام تقنية الشبكة العصبية العميقة. في طريقة الشجرة قمنا باختيار 22 صنف رئيسي بناء على قواعد التجويد والتي تغطي ما يقارب 30 صنف فرعي. كما قمنا في هذا النوع باستخدام ثلاث مصنفات (مصنف متعدد المستقبلات(الخلايا) ومصنف شعاع الدعم الآلي ومصنف ك-الجار الأقرب) وقمنا بعمل دمج بين هذه المصنفات وحصلنا على نتيجة جيد جدا. بينما في الطريقة الثانية قمنا باستخدام خوارزمية الشبكة العصبية العميقة وذلك بسبب كبر عدد الأصناف في المقاطع اللفظية القرآنية وتم الحصول على نتيجة ممتازة جدا. إجمالا في هذه الرسالة قمنا بعمل تقنيات جديدة في الصوت القرآني من حيث التقطيع والحصول على المقاطع الأمثلية ومن ثم التعرف على هذه المقاطع اللفظية

English Abstract

Speech is the most natural form of human communication. Major achievements have been made in developing systems that automatically recognize human speech and respond (or take action) accordingly. An important preprocessing step in speech recognition systems, which plays a key role not only in recognition but also in a variety of other speech applications, is segmentation. Such a preprocessing step is important in identifying high level semantics of speech sounds including syllables, consonants, vowels, phones, dialects, …etc. We show in particular, that such a step is crucial in properly analyzing Quranic (Muslim Holy Book) recitation. There are basically two general approaches used for speech segmentation, namely implicit and explicit approaches. Explicit segmentation uses a bottom up process and is based on the concept of fixed size speech frames. Such a framework has been heavily used in automatic speech recognition (ASR) systems based on the conventional Hidden Markov Model (HMM). The varying frame size or sample by sample approaches are mainly used in implicit segmentation approaches which are based on the detection of spectral distortions. The main objective of this thesis is to develop a comprehensive hybrid speech analysis system which includes robust segmentation and accurate classification for Arabic with particular focus on Quran. We develop a new framework that takes a recitation of the holy Quran as input then creates speech segments by using a number of related special features. In addition to the traditional features, we introduce a new entropy based feature and show its relevance to the segmentation task. We then develop an approach for combining speech frames into what we call speech units using an optimization step. After obtaining the speech segment units, we develop our own framework for categorizing Quran speech segment units into a dictionary of around 22 super-classes with each covering around 30 sub-classes. For classification, we implement a number of basic classifiers including KNN, MLP, and SVM. We then test the performance of an ensemble-based classifier with very promising results. More importantly, and given the large number of classes, a Deep Neural Network (DNN) architecture was used for robust classification. We used the Autoencoder DNN model for recognizing the segment unit class with excellent results. We show that the DNN is better suited for more complex features where the inclusion of additional parameters and layers can better capture feature discrimination across a large number of classes. In summary, the dissertation provides a suite of new approaches for automatic Quran recitation systems including: robust segmentation, an optimum set of segment units, and finally a classification stage using DNN

Item Type: Thesis (PhD)
Subjects: Computer
Electrical
Department: College of Engineering and Physics > Electrical Engineering
Committee Advisor: Deriche, Mohamed
Committee Co-Advisor: Elshafei, Mostafa
Committee Members: Mohandes, Mohamed and Zerguine, Azzedine and Zidouri, Abdelmalek
Depositing User: AHMED HAMD ABO ABSA (g201301650)
Date Deposited: 22 May 2018 09:42
Last Modified: 31 Dec 2020 07:16
URI: http://eprints.kfupm.edu.sa/id/eprint/140734