Evaluating Speech Intelligibility in Large Mosque: AI Model Development for Sound Reinforcement System (SRS) Design Based on Subjective Perception

Evaluating Speech Intelligibility in Large Mosque: AI Model Development for Sound Reinforcement System (SRS) Design Based on Subjective Perception. Masters thesis, King Fahd University of Petroleum and Minerals.

[img] PDF
Ndaru Alfian_Thesis Draft V4.pdf
Restricted to Repository staff only until 26 August 2026.

Download (9MB)

Arabic Abstract

تُعَدّ قابليةُ فَهْمِ الكلام أمرًا حاسمًا في المساجد الكبيرة. فالبيئة الصوتية في المساجد، بما تتسم به من فضاءاتٍ واسعةٍ مفتوحة وأسقفٍ عاليةٍ وأسسطحٍ عاكسة، تطرح تحدّيًا كبيرًا أمام وضوح الصوت. وغالبًا ما لا تلبّي نظمُ تعزيز الصوت (SRS) القائمةُ الاحتياجاتِ الصوتيةَ، بسبب تصميمٍ غير فعّال، ما يزيد من تدهور قابلية فهم الكلام. تبحث هذه الدراسة قابليةَ الفهم في بيئات المساجد عبر فحص تبايناتٍ في تصميم نظم تعزيز الصوت من خلال اختباراتِ استماعٍ ذاتية وتحليلاتٍ صوتيةٍ موضوعية. كما تُقدِّم مقاربةً قائمةً على الذكاء الاصطناعي للتنبؤ بقابلية الفهم بالاستناد إلى الإدراك الذاتي للمستمعين. أظهرت النتائج وجود فجوةٍ بين القياسات الصوتية الموضوعية والإدراك الذاتي؛ إذ كانت التباينات الكبيرة الناشئة عن اتجاهية مكبّرات الصوت والزاوية الرأسية قرب المصدر قابلةً للقياس صوتيًّا، لكنها لم تكن ملحوظةً لدى المستمعين. وتبيّن أن الصوامت النهائية هي أكثرُ أصوات الكلام تعرّضًا للتدهور، إذ كثيرًا ما تُحجَب بطاقةِ الصوائتِ المتردّدة (من أثر الارتداد/الصدى). كما اتّضح أن عناصرَ معماريةً مثل الجدران الجانبية تُحسّن قابلية الفهم عبر انعكاساتٍ مفيدة. وفيما يخص تطوير نموذج الذكاء الاصطناعي، تأكّد وجودُ مقايضةٍ بين الدقّة والكفاءة: فقد حقّق التعزيزُ المتدرّج مع معاملات السبيسترُم بتردّد الميل (MFCC) أعلى دقّة (0.91)، وكان نموذج LSTM ثنائي الاتجاه (Bi-LSTM) الأكثرَ كفاءةً من حيث زمن التدريب (26 ثانية)، بينما قدّم Light Gradient Boosting Machine (LightGBM) مع MFCC أفضلَ توازنٍ بين دقّةٍ مرتفعة (0.90) وزمنِ تدريبٍ سريع (27 ثانية).

English Abstract

Speech intelligibility is critical in large mosques. The acoustic environment in mosques, with their architectural characteristics of big open spaces, high ceilings, and reflective surfaces, sets a big challenge for intelligible sound. Most of the time, the existing Sound Reinforcement Systems (SRS) do not address the acoustical needs, mainly because the design is ineffective, further degrading speech intelligibility. The present study investigates speech intelligibility in mosque environments by examining variations in SRS design through both subjective listening tests and objective acoustic analyses. It further introduces an AI-based approach to predict intelligibility based on subjective perception. The study found a disconnect between objective acoustic measurements and subjective perception, where significant variations from loudspeaker directivity and vertical angle near the source were acoustically measurable but not noticed by listeners. Final consonants were identified as the most vulnerable speech sounds, often masked by reverberant vowel energy, while architectural features like side walls were shown to improve intelligibility through beneficial reflections. Regarding AI model development, a trade-off between accuracy and efficiency was confirmed: Gradient Boosting with MFCC was most accurate (0.91), a Bi-LSTM model was the most efficient to train (26 seconds), and Light Gradient Boosting Machine with MFCC offered the best balance of high accuracy (0.90) and fast training (27 seconds).

Item Type: Thesis (Masters)
Subjects: Architectural
Engineering
Department: College of Design and Built Environment > Architectural Engineering and Construction Management
Committee Advisor: Ouis, Djamel
Committee Members: Abdou, Adel A. and Iqbal, Naveed
Depositing User: NDARU ALFIAN (g202214060)
Date Deposited: 28 Aug 2025 07:08
Last Modified: 28 Aug 2025 07:08
URI: http://eprints.kfupm.edu.sa/id/eprint/143680