Automatic classification of speech and music in digitized audio

(2005) Automatic classification of speech and music in digitized audio. Masters thesis, King Fahd University of Petroleum and Minerals.

[img]
Preview
PDF
10529.pdf

Download (1MB) | Preview

Arabic Abstract

ازداد الاهتمام في الآونة الأخيرة بمسألة القدرة على تمييز وتصنيف الإشارات الصوتية إلى إشارات موسيقية وإشارات خطابية. لقد أصبح هذا التصنيف جزءاً مهما من أنظمة قواعد بيانات مستندات متعددة الوسائط. وقد تم القيام بهذا التصنيف في السابق بطرق متعددة. ندرس في هذه الرسالة استخدام المعدل mean ودرجة الانحراف القياسي standatd deviation للتحويل المويحي المتقطع Discrete Wavelet Transform ودرجة الانحراف القياسي لعوالم ميل الترددية Mel-Frequency Cepstral Coefficients وجذر المعدل التربيعي للإشارة المخفضة Root Mean Square of a Lowpass Signal والفرق بين الحد الأقصى والحد الأدنى لعبور الصفر zero crossings إضافة لخصائص أخرى استخدمت سابقاً. وقد تم دراسة طرق التصنيف التالية: الشبكة العصبية التصورية متعددة الطبقات Multi-Layer Perceptron Neural Network والشبكة العصبية ذات الدوال القاعدية الإشعاعية Radial Basis Functions Neural Network ونماذج ماركوف المخفية Hidden Markov Models. كما اقترحنا خوارزمية جديدة لزيادة دقة تصنيف الشبكة العصبية التصورية متعددة الطبقات للإشارات الصوتية الطويلة. نتائج التجارب التطبيقية أثبتت نجاعة طرقنا المقترحة.

English Abstract

The importance of automatic classification between speech signals and music signals has evolved as a research topic over recent years. The need to classify audio into categories such as speech or music is an important aspect of many multimedia document retrieval systems. Several approaches have been previously used to discriminate between speech and music data. In this thesis, we propose the use of the mean and variance of the discrete wavelet transform, variance of mel-frequency cepstral coefficients, RMS of lowpasss signal , and disfference of maximum and minimum of zero-crossings in addition to other features that have been used previously for audio classification. We have used Multi-Layer Perceptron (MLP) Neural Networks, Radial basis Functions (RBF) Neural Networks, and Hidden Markov Model (HMM) as classifiers. We have also proposed an algorithm to improve the classification accuracy when MLP is applied on audio samples of longer durations. Our experiments have shown encouraging results that indicate the viability of our approach.

Item Type: Thesis (Masters)
Subjects: Computer
Department: College of Computing and Mathematics > Information and Computer Science
Committee Advisor: Al-Khatib, Wasfi G.
Committee Members: Sarfraz, Muhammad and El-Shafei, Moustafa A.
Depositing User: Mr. Admin Admin
Date Deposited: 22 Jun 2008 14:07
Last Modified: 01 Nov 2019 14:02
URI: https://eprints.kfupm.edu.sa/id/eprint/10529