Attention-Based Spatio-Temporal Feature Fusion for Efficient RGB Face Presentation Attack Detection

Attention-Based Spatio-Temporal Feature Fusion for Efficient RGB Face Presentation Attack Detection. Masters thesis, King Fahd University of Petroleum and Minerals.

[img] PDF (ATTENTION-BASED SPATIO-TEMPORAL FEATURE FUSION FOR EFFICIENT RGB FACE PRESENTATION ATTACK DETECTION)
KFUPM_Thesis_Tazeen_FINAL_complete.pdf - Updated Version
Restricted to Repository staff only until 13 June 2027.

Download (6MB)

Arabic Abstract

يُعد كشف هجمات العرض على الوجه (FacePAD) مكونًا حيويًا في الأنظمة البيومترية الحديثة، حيث يهدف إلى حماية تقنيات التعرف على الوجه من محاولات الخداع مثل الصور المطبوعة ومقاطع الفيديو المعاد تشغيلها والأقنعة ثلاثية الأبعاد. وعلى الرغم من التقدم الكبير في هذا المجال، لا تزال طرق FacePAD المعتمدة على الصور الملونة (RGB) تواجه تحديات مستمرة في تحقيق التوازن بين المتانة والعملية. فالمقاربات المعتمدة على السمات المكانية فقط غالبًا ما تفشل في التعميم عبر أنواع الهجمات المختلفة، في حين أن الطرق الزمانية-المكانية الحالية تعتمد عادةً على بنى حسابية مكلفة مثل الشبكات التكرارية أو الالتفافات ثلاثية الأبعاد. علاوة على ذلك، يظل الاستفادة الفعالة من المعلومات الزمنية دون إدخال عبء حسابي كبير مشكلة مفتوحة، خاصة في سيناريوهات النشر الواقعية التي تتطلب الكفاءة وقابلية التوسع. لمعالجة هذه التحديات، تقدم هذه الرسالة إطارًا زمانيًا-مكانيًا قائمًا على آلية الانتباه لكشف هجمات العرض باستخدام صور RGB فقط، حيث يتم دمج ميزات الإطارات بشكل تكيفي باستخدام انتباه باهداناو الزمني. يتعلم النموذج المقترح إبراز الإشارات الزمنية المميزة مع تقليل تأثير الإطارات الأقل أهمية أو الزائدة، مما يتيح نمذجة زمنية فعالة دون الاعتماد على بنى ثقيلة. تُظهر التجارب المكثفة على عدة مجموعات بيانات مرجعية فعالية النهج المقترح وقدرته على التعميم، حيث يحقق معدل خطأ كلي (HTER) يساوي 0٪ على مجموعتي Replay-Attack وReplay-Mobile، وأدنى HTER بنسبة 0.53٪ على مجموعة ROSE-Youtu، وأدنى معدل خطأ تصنيف متوسط (ACER) بنسبة 0.069٪ على مجموعة OULU-NPU. كما تؤكد التقييمات الإضافية على مجموعة SiW-Mv2 الصعبة متانة النموذج عبر سيناريوهات خداع متنوعة. وتدعم دراسات الإزالة الشاملة تأثير طول التسلسل الزمني واستراتيجية الدمج وبنية الشبكة وجودة المدخلات، مما يوضح أن الدمج الزمني التكيفي يحسن بشكل ملحوظ القدرة التمييزية. وبشكل عام، يوفر الإطار المقترح حلاً قويًا وفعالًا وقابلًا للتوسع لتطبيقات FacePAD المعتمدة على RGB في البيئات الواقعية.

English Abstract

Face Presentation Attack Detection (FacePAD) is a critical component of modern biometric systems, aimed at safeguarding face recognition technologies against spoofing attempts such as printed images, replayed videos, and 3D masks. Despite significant progress, RGB-based FacePAD methods face persistent challenges in balancing robustness and practicality. Purely spatial approaches often fail to generalize across diverse attack types, while existing spatio-temporal methods typically rely on computationally intensive architectures such as recurrent networks or 3D convolutions. Furthermore, effectively leveraging temporal information without introducing excessive computational overhead remains an open problem, particularly for real-world deployment scenarios where efficiency and scalability are essential. To address these challenges, this thesis proposes an attention-based spatio-temporal framework for RGB-only FacePAD that adaptively aggregates frame-level features using Bahdanau temporal attention. The proposed method learns to emphasize discriminative temporal cues while suppressing redundant or less informative frames, enabling effective temporal modeling without relying on heavy architectures. Extensive experiments across multiple benchmark datasets demonstrate the effectiveness and generalization capability of the approach, achieving perfect HTER on Replay-Attack and Replay-Mobile, a minimum HTER of 0.53% on ROSE-Youtu, and the lowest reported ACER of 0.069% on OULU-NPU. Additional evaluation on the challenging SiW-Mv2 dataset further confirms its robustness across diverse spoofing scenarios. Comprehensive ablation studies validate the impact of temporal length, fusion strategy, backbone architecture, and input quality, showing that adaptive temporal aggregation significantly improves discriminative performance. Overall, the proposed framework provides a robust, efficient, and scalable solution for RGB-based FacePAD in real-world applications.

Item Type: Thesis (Masters)
Subjects: Computer
Department: College of Computing and Mathematics > Computer Engineering
Thesis Advisor:
Shujaat Khan,
Thesis Committee Members:
Aiman El-maleh, Abdul Jabbar Siddiqui,
Depositing User: TAZEEN KHAN
Date Deposited: 14 Jun 2026 10:29
Last Modified: 16 Jun 2026 10:31
URI: https://eprints.kfupm.edu.sa/id/eprint/144575