Continuous Sign Language Recognition: Dataset Development and Novel Frameworks. PhD thesis, King Fahd University of Petroleum and Minerals.
|
PDF
Sarah_Alyami_PhD_Thesis_June23.pdf Restricted to Repository staff only until 23 June 2026. Download (28MB) |
Arabic Abstract
يهدف مجال التعرف المستمر على لغة الإشارة \LR{(Continuous Sign Language Recognition)} إلى تحويل الفيديو الذي يحتوي على جملة بلغة الإشارة إلى نص يمثل لغة الإشارة المكتوبة مما يمكّن الأنظمة الحاسوبية من فهم لغة الإشارة بشكل تلقائي. إلا أن هذا المجال يواجه تحديات فريدة، مثل غياب الفواصل الواضحة بين الإشارات، ووجود ظواهر مثل الاندماج الحركي بين الإشارات، مما يجعل مهمة تمييز الفواصل بين الإشارات والتعرف عليها أكثر تعقيدًا. علاوة على ذلك، فإن معظم الأبحاث السابقة تركزت على لغات إشارة محدودة وفي بيئات تصوير مقيدة، مما يحد من قدرة النماذج على العمل بدقة في الاستخدامات الواقعية. تتناول هذه الرسالة هذه التحديات في سياق لغة الإشارة السعودية من خلال تقديم قاعدة بيانات اسمها "إشارة"، هي أول قاعدة بيانات واسعة النطاق للتعرف المستمر على لغة الإشارة السعودية. تحتوي على 30,000 مقطع فيديو تتضمن جمل بلغة الإشارة السعودية مرفقه مع توسيم ثنائي على مستوى لغة الإشارة المكتوبة (glosses) والنص المماثل باللغة العربية. تم تسجيل الفيديوهات باستخدام كاميرات الهواتف الذكية في بيئات طبيعية وواقعية، مما يجعلها أكثر ملاءمة للتطبيقات العملية مقارنةً ببيانات الدراسات السابقة. تم اعداد دراسة لبحث فعالية قاعدة البيانات لاستخدامها لتدريب عدة نماذج للغة الآلة وتم تقييم الأداء تحت ظروف تشمل التعرف على الإشارات من أشخاص جدد غير مشمولين في بيانات التدريب (signer-independent) وكذلك التعرف على تركيبات جمل جديدة \LR{(unseen-sentences)}. بالإضافة إلى ذلك، تستكشف الرسالة اتجاهًا اخراً يهدف الى تطوير أنظمة ذكية خفيفة للتعرف على لغة الإشارة من خلال تطوير نماذج تعتمد على بيانات الإحداثيات الهيكلية \LR{(Skeleton joint coordinates)} . باستخدام هذه الطريقة، تم تطوير نموذج اولي للتعرف على لغة الاشارة السعودية يعتمد فقط على الإحداثيات الهيكلية مُدرب باستخدام قاعدة بيانات "إشارة". وقد أظهر هذا النموذج أداءً تنافسيًا مقارنةً بعدد من النماذج المعتمدة على الفيديو مع عدم الاحتياج لمتطلبات حسابية وتشغيلية عالية. وهذا يبرز الامكانية العالية لهذا النوع من الأنظمة كبديل فعال وعملي للأنظمة المعقدة السابقة. بشكل عام، لتحسين القدرة على التعرف على لغة الإشارة في الفيديويهات تم تطوير نظام جديد باسم (Swin-MSTP)، الذي يجمع بين أحدث التقنيات في مجال التعلم العميق (Swin Transformer and multi-scale Temporal Convolutional Networks) اثبت النظام فعاليته على خمس قواعد بيانات مختلفة، نتائج الاختبارات اظهرت ان دمج هذه التقنيات حسن من قدرة النظام على التعرف على الإشارات حيث ان الطريقة المقترحة تُحسن من تمييز التفاصيل الشكلية الدقيقة ونمذجة الارتباطات الزمانية المتعلقة بلغة الإشارة. كذلك تم اقتراح نظام (CLIP-SLA: CLIP Sign Language Adaptation) الذي يقوم على تكييف النماذج المدربة مسبقاً المتخصصة في فهم الارتباطات اللغوية والشكلية بين البيانات (Vision-Language Models) تم تطوير نموذجين (SLA-Adapter and SLA-LoRA) يستخدمان تقنيات خفيفة لتكييف النماذج المدربة مسبقاً لتكون ملاءمة لاستعمالها لفهم لغة الإشارة المستمرة. تمت دراسة فعالية النظامين المقترحة على اربع قواعد بيانات وكلاهما حقق نتائج متفوقة مما يشجع على تكييف نماذج لغة الالة الكبيرة بدل إعادة تدربيها كلياً للتمكن من توظيفها بأنظمة التعرف على لغة الإشارة. تقدم هذه الرسالة مساهمات مهمة تشمل إنشاء قاعدة بيانات واسعة النطاق وتطوير نماذج متقدمة، مما تسهم في تقدم مجال التعرف المستمر على لغة الإشارة، مع التركيز على تطوير تقنيات التعرف على لغة الإشارة السعودية بشكل خاص.
English Abstract
Sign language is a visual language used by the Deaf as their primary means of communication. Sign Language Recognition (SLR) aims to bridge the communication gap between Deaf and hearing individuals by automatically recognizing signs. Continuous Sign Language Recognition (CSLR) extends this task to interpret sign language gesture sequences that are performed continuously without pauses. CSLR presents unique challenges, including the lack of clear sign boundaries, co-articulation effects, where a sign's form changes depending on surrounding signs, and movement epenthesis, where non-sign transitions must be distinguished from meaningful gestures. Additionally, CSLR must capture both intra- and inter-gloss dependencies, as well as the complex multi-cue nature of sign language, including finger configurations, mouth shapes, and facial expressions. Despite recent progress, CSLR remains significantly underexplored compared to other areas of computer vision. Much of the existing work is focused on a few sign languages represented by laboratory-recorded datasets. Notably, no prior studies have addressed sentence-level CSLR for Saudi Sign Language (SSL), largely due to the lack of SSL resources and annotated datasets. To address this gap, we introduce Isharah the first large-scale sentence-level CSLR dataset for SSL. With 30,000 annotated videos, Isharah is the largest CSLR benchmarking dataset of its kind. The dataset features 2,000 unique sentences and a vocabulary of over 1,100 signs. Uniquely, Isharah was recorded using smartphone cameras in diverse, naturalistic environments, making it well-suited for real-world applications. Videos were self-recorded by fluent Deaf participants and meticulously annotated by SSL experts. The dataset required extensive efforts in recording, segmentation, annotation, and verification. We also define benchmark tasks and establish several baselines for both CSLR and SLT under signer-independent and unseen-sentence settings, offering valuable insights into real-world SSL recognition. To promote efficient CSLR, we explore pose-based modeling, which offers a lightweight alternative to video based recognition. We propose a Transformer-based model that uses 2D skeletal keypoint sequences, reducing input complexity and model size. Our model achieves competitive results on the CSL dataset and surpasses all previous RGB-based baselines on Isharah under the signer-independent evaluation. These results highlight the robustness of abstract skeletal representations in mitigating the effects of background clutter and signer appearance. Furthermore, our efficiency analysis shows that the pose-based approach achieves favorable trade-offs between performance and model size, making it well-suited for real-time applications on resource-constrained devices. We also advance video-based CSLR through two novel frameworks. First, we introduce Swin-MSTP, which combines Swin Transformers with multi-scale temporal convolutions for enhanced spatio-temporal modeling. Our model achieves SOTA performance across five large-scale CSLR datasets, surpassing several multi-modal approaches. Comprehensive ablation studies and visualizations validate the effectiveness of the proposed framework in capturing the complex multi-cue nature of sign language and modeling both local and global temporal dependencies within sign language sentences. Second, we propose CLIP Sign language Adaptation (CLIP-SLA), a parameter-efficient framework that adapts the CLIP visual encoder for CSLR. Unlike previous approaches that fully fine-tune image-pretrained backbones, CLIP-SLA freezes the visual encoder and introduces task-specific modules via LoRA and Adapter layers. By leveraging CLIP’s vision-language pretraining, our two CLIP-SLA variants SLA-LoRA and SLA-Adapter outperform multi-modal CSLR baselines across four datasets with significantly fewer trainable parameters. This approach yields faster training, better generalization, and improved recognition accuracy. In summary, this thesis contributes a high-impact dataset, introduces efficient and accurate CSLR models, and provides extensive benchmarks that push the boundaries of the field. These contributions lay a strong foundation for scalable, real-world CSLR systems, particularly for underrepresented sign languages like SSL.
| Item Type: | Thesis (PhD) |
|---|---|
| Subjects: | Computer |
| Department: | College of Computing and Mathematics > Information and Computer Science |
| Committee Advisor: | Luqman, Hamzah |
| Committee Co-Advisor: | Hammoudeh, Mohammad |
| Committee Members: | Mohandes, Mohamed and Moataz, Ahmed and Khan, Fakhri |
| Depositing User: | SARAH ALYAMI (g202002320) |
| Date Deposited: | 26 Jun 2025 05:37 |
| Last Modified: | 26 Jun 2025 05:37 |
| URI: | http://eprints.kfupm.edu.sa/id/eprint/143344 |