LEVERAGING FOUNDATION MODELS FOR CONTINUOUS SIGN LANGUAGE RECOGNITION. Masters thesis, King Fahd University of Petroleum and Minerals.
|
PDF
THESIS.pdf - Accepted Version Restricted to Repository staff only until 9 May 2027. Available under License Creative Commons Attribution No Derivatives. Download (10MB) |
Arabic Abstract
يعتمد التواصل الفعال للصم وضعاف السمع بشكل كبير على لغة الإشارة، إلا أن التعرف الآلي على لغة الإشارة وترجمتها لا يزال يمثل تحديًا وذلك بسبب ديناميكياتها المكانية والزمانية المعقدة، وتنوع أساليب تأدية لغة الاشارة، والإشارات متعددة الوسائط. تتناول هذه الأطروحة هذه التحديات من خلال تطوير أساليب التعرف المستمر على لغة الإشارة وترجمتها. أولًا، نقترح إطار عمل موحدًا للنمذجة المكانية والزمانية يستفيد من بنيةSwin Transformer الأساسية مع مكون زمني محسّن من حيث التكلفة الحسابية وتضمينات موضعية لالتقاط السمات المكانية الدقيقة والتبعيات الزمنية طويلة المدى من مقاطع فيديو RGB. ثانيًا، نطور إطار عمل للتعرف أولًا على لغة الإشارة متعددة الوسائط RF-MMSLT يدمج معلومات الوضعية الحركية القائمة على النقاط المفتاحية في فضاء دلالي مشترك، ويربط السمات بتضمينات نموذج اللغة الكبيرة لتوليد جمل لغوية منطوقة مترابطة المعنى. ثالثًا، للتغلب على ندرة البيانات الواقعية، نقدم مجموعة بيانات "إشارة سيلفي" Isharah-Selfi، وهي مجموعة بيانات واسعة النطاق لتحليل لغة الإشارة، جُمعت باستخدام كاميرات الهواتف الذكية المحمولة بيد واحدة في ظروف غير مقيدة، ما يسمح بتصوير أنماط إشارات وبيئات ومجالات متنوعة. تُظهر تجارب مكثفة أن نظام USTM يحقق أداءً متميزًا في تحديد المواقع المكانية والزمانية CSLR على البيانات المعيارية المتوفرة، بينما يوفر نظام MM-SLT دقة فائقة في تحليل لغة الإشارة. تُرسّخ قاعدة بيانات "إشارة سيلفي" سيناريوهات تقييم واقعية مليئة بالتحديات، مما يُمكّن البحث من تطوير تطبيقات عملية يومية لتحليل لغة الإشارة. يُبرز هذا العمل، في مجمله، فعالية النمذجة المكانية والزمانية، دمج بيانات متعددة الوسائط، وجمع البيانات غير المقيدة، مُقدمًا إطارًا شاملًا لأنظمة تحديد المواقع المكانية والزمانية وتحليل لغة الإشارة القوية، ومُمهدًا الطريق لدعم تواصل واقعي ومتاح لمجتمع الصم.
English Abstract
Effective communication for the deaf and hard-of-hearing people relies heavily on Sign Language (SL), yet automated recognition and translation of SL remain challenging due to lack of data, complex spatio-temporal dynamics, signer variability, and multimodal cues. This thesis addresses these challenges by advancing methods for Continuous Sign Language Recognition (CSLR) and Sign Language Translation (SLT). First, we propose a Unified Spatio-Temporal Modeling (USTM) framework that leverages a Swin Transformer backbone with lightweight temporal adapters and positional embeddings to capture fine-grained spatial features and long-range temporal dependencies from RGB videos. Extensive experiments demonstrate that USTM achieves state-of-the-art CSLR performance on benchmark datasets. Second, we develop a Recognition First Mulit- modal SLT (RF-MMSLT) framework that integrates visual and keypoint-based pose information into a shared semantic space, aligning features with Large Language Models (LLMs) embeddings to generate coherent spoken language sentences. The proposed model has been evaluated on benchmark datasets and SOTA performance has been obtained. Third, to address the scarcity of real-world data, we introduce Isharah-Selfie, a large-scale SLT dataset collected via one-hand-held smartphone cameras under unconstrained conditions, capturing diverse signing styles, environments, and domains. The Isharah-Selfie dataset establishes challenging real-world evaluation scenarios, enabling research toward practical, everyday SLT applications. Collectively, this work highlights the effectiveness of spatio-temporal modeling, multimodal integration, and unconstrained dataset collection, offering a comprehensive framework for robust SLR and SLT systems and paving the way for accessible, real-world communication support for the deaf community.
| Item Type: | Thesis (Masters) |
|---|---|
| Subjects: | Computer |
| Department: | College of Computing and Mathematics > Information and Computer Science |
| Thesis Advisor: |
Hamzah Luqman,
|
| Thesis Committee Members: |
Moataz Ahmed,
Irfan Ahmad,
|
| Depositing User: | AHMED HASANAATH (g202302610) |
| Date Deposited: | 11 May 2026 10:10 |
| Last Modified: | 11 May 2026 10:10 |
| URI: | http://eprints.kfupm.edu.sa/id/eprint/144199 |