SwinFSR: Landmark-Guided Multiscale Swin Transformer for Identity-Preserving Face Super Resolution

SwinFSR: Landmark-Guided Multiscale Swin Transformer for Identity-Preserving Face Super Resolution. Masters thesis, King Fahd University of Petroleum and Minerals.

[img] PDF
MS-THESIS G202216760.pdf
Restricted to Repository staff only until 12 January 2027.

Download (17MB)

Arabic Abstract

تهدف تقنية تحسين دقة الوجوه (Face Super-Resolution – FSR) إلى إعادة بناء صور وجوه عالية الدقة انطلاقًا من مدخلات منخفضة الدقة وشديدة التدهور، وتلعب دورًا مهمًا في مجالات الأمن، والقياسات الحيوية، والتحقيقات الجنائية، وأنظمة الرؤية الحاسوبية الحديثة. ومع ذلك، تواجه نماذج تحسين دقة الوجوه المعتمدة على التعلم العميق صعوبات في الحفاظ على البنية الهندسية للوجه وهوية الشخص عند التعامل مع صور منخفضة الدقة للغاية أو عند استخدام معاملات تكبير كبيرة. ولمعالجة هذه التحديات، تقترح هذه الرسالة إطارًا جديدًا يُسمّى SwinFSR، وهو إطار متعدد المقاييس يعتمد على مُحوّل Swin وموجّه بمعالم الوجه، ويهدف إلى تحسين دقة الوجوه مع الحفاظ على الهوية عند معاملات تكبير 4× و8×. يعتمد الإطار المقترح على دمج خرائط حرارية كثيفة لمعالم الوجه كقيود هندسية مع عملية استخراج السمات باستخدام بنية المحوّلات الهرمية، وذلك لفرض الاتساق الهندسي خلال جميع مراحل إعادة البناء. حيث يقوم مُشفّر تلافيفي سطحي أولًا بدمج معلومات المظهر اللوني (RGB) مع خمس خرائط حرارية لمعالم الوجه لتكوين موتر إرشادي مكوّن من ثماني قنوات. بعد ذلك، يتم استخراج السمات العميقة باستخدام كتل محوّل Swin التراكمية المتبقية (Residual Swin Transformer Blocks – RSTBs)، مما يتيح نمذجة فعّالة للعلاقات السياقية المحلية والعالمية. كما تُستخدم وحدة تكبير تعتمد على تقنية PixelShuffle لإعادة بناء صور الوجوه عالية الدقة، في حين تسهم وصلة تخطّي طويلة في الحفاظ على المكوّنات منخفضة التردد للبنية الوجهية. أظهرت التجارب الموسعة على مجموعة بيانات CelebA أن نموذج SwinFSR يحقق أداءً متفوقًا مقارنة بأحدث النماذج المرجعية، بما في ذلك SRGAN وFSRNet وDIC وSPARNet وSISN وMRRNet وUFSRNet وW-Net. وقد حقق النموذج قيمًا أعلى لمقاييس PSNR وSSIM وLPIPS عند معاملات التكبير 4× و8×، إلى جانب إنتاج تفاصيل وجه أكثر وضوحًا، وبنية هندسية أكثر استقرارًا، وقدرة أفضل على الحفاظ على هوية الشخص في التقييمات البصرية. كما يوفر النموذج توازنًا متميزًا بين الدقة والكفاءة، حيث يحقق قيمة 27.97 ديسيبل عند تكبير 8× بزمن استدلال يبلغ 0.015 ثانية لكل صورة. من خلال الدمج الفعّال بين القيود الهندسية وبُنى المحوّلات المتقدمة، تضع هذه الدراسة معيارًا جديدًا لتحسين دقة الوجوه عالي الجودة مع الحفاظ على الهوية، وتوفر أساسًا مرنًا للأبحاث المستقبلية في مجالات استعادة الوجوه وتحسينها.

English Abstract

Face super-resolution (FSR) aims to reconstruct high-resolution face images from severely degraded inputs and plays a critical role in security, biometrics, forensics, and modern vision systems. However, existing deep-learning-based FSR models struggle to preserve facial structure and identity when working with extremely low-resolution inputs or large upscaling factors. To address these challenges, this thesis proposes SwinFSR, a landmark-guided multiscale Swin Transformer framework designed for identity-preserving face super-resolution at 4× and 8× enlargement. The proposed method integrates dense heatmap-based landmark priors with hier archical Transformer feature extraction to enforce geometric consistency throughout the reconstruction pipeline. A shallow convolutional encoder first fuses RGB appearance with five landmark heatmaps into an 8-channel guidance tensor. This is fol lowed by deep feature extraction through stacked Residual Swin Transformer Blocks (RSTBs), enabling strong local global contextual reasoning. A PixelShuffle based up sampling module reconstructs high-resolution face images while a long skip connection preserves low-frequency facial structure. Extensive experiments on the CelebA dataset demonstrate that SwinFSR achieves superior performance compared to state-of-the-art baselines including SRGAN, FS RNet, DIC, SPARNet, SISN, MRRNet, UFSRNet, and W-Net. SwinFSR achieves higher PSNR, SSIM, and LPIPS scores for both 4× and 8× scaling, while producing sharper facial details, more stable geometry, and better identity preservation in vi sual analysis. The model also provides an excellent trade-off between accuracy and efficiency, achieving 27.97 dB at 8× with an inference speed of 0.015s per image. By effectively integrating geometric priors with advanced Transformer architec tures, this work establishes a new benchmark for high-fidelity, identity-preserving face super-resolution and offers a flexible foundation for future research in facial restoration and enhancement.

Item Type: Thesis (Masters)
Subjects: Computer
Department: College of Computing and Mathematics > Information and Computer Science
Committee Advisor: Omar Hammad Jamal, Omar Hammad Jamal
Committee Members: Mahmood Khan Niazi, Mahmood Khan Niazi and Saeed Anwar, Saeed Anwar
Depositing User: HABIBA KAUSAR (g202216760)
Date Deposited: 12 Jan 2026 08:36
Last Modified: 12 Jan 2026 08:36
URI: http://eprints.kfupm.edu.sa/id/eprint/144020