KFUPM ePrints

Automatic classification of speech and music in digitized audio

Khan, Muhammad Kashif Saeed (2005) Automatic classification of speech and music in digitized audio. Masters thesis, King Fahd University of Petroleum and Minerals.

[img]PDF
1307Kb

Arabic Abstract

ازداد الاهتمام في الآونة الأخيرة بمسألة القدرة على تمييز وتصنيف الإشارات الصوتية إلى إشارات موسيقية وإشارات خطابية. لقد أصبح هذا التصنيف جزءاً مهما من أنظمة قواعد بيانات مستندات متعددة الوسائط. وقد تم القيام بهذا التصنيف في السابق بطرق متعددة. ندرس في هذه الرسالة استخدام المعدل mean ودرجة الانحراف القياسي standatd deviation للتحويل المويحي المتقطع Discrete Wavelet Transform ودرجة الانحراف القياسي لعوالم ميل الترددية Mel-Frequency Cepstral Coefficients وجذر المعدل التربيعي للإشارة المخفضة Root Mean Square of a Lowpass Signal والفرق بين الحد الأقصى والحد الأدنى لعبور الصفر zero crossings إضافة لخصائص أخرى استخدمت سابقاً. وقد تم دراسة طرق التصنيف التالية: الشبكة العصبية التصورية متعددة الطبقات Multi-Layer Perceptron Neural Network والشبكة العصبية ذات الدوال القاعدية الإشعاعية Radial Basis Functions Neural Network ونماذج ماركوف المخفية Hidden Markov Models. كما اقترحنا خوارزمية جديدة لزيادة دقة تصنيف الشبكة العصبية التصورية متعددة الطبقات للإشارات الصوتية الطويلة. نتائج التجارب التطبيقية أثبتت نجاعة طرقنا المقترحة.

English Abstract

The importance of automatic classification between speech signals and music signals has evolved as a research topic over recent years. The need to classify audio into categories such as speech or music is an important aspect of many multimedia document retrieval systems. Several approaches have been previously used to discriminate between speech and music data. In this thesis, we propose the use of the mean and variance of the discrete wavelet transform, variance of mel-frequency cepstral coefficients, RMS of lowpasss signal , and disfference of maximum and minimum of zero-crossings in addition to other features that have been used previously for audio classification. We have used Multi-Layer Perceptron (MLP) Neural Networks, Radial basis Functions (RBF) Neural Networks, and Hidden Markov Model (HMM) as classifiers. We have also proposed an algorithm to improve the classification accuracy when MLP is applied on audio samples of longer durations. Our experiments have shown encouraging results that indicate the viability of our approach.



Item Type:Thesis (Masters)
Date:May 2005
Date Type:Completion
Subjects:Computer
Divisions:College Of Computer Sciences and Engineering > Information and Computer Science Dept
Creators:Khan, Muhammad Kashif Saeed
Committee Advisor:Al-Khatib, Wasfi G.
Committee Members:Sarfraz, Muhammad and El-Shafei, Moustafa A.
ID Code:10529
Deposited By:KFUPM ePrints Admin
Deposited On:22 Jun 2008 17:07
Last Modified:30 Apr 2011 15:36

Repository Staff Only: item control page