A Unified Framework for Unsupervised Backlight and Low-light Image Enhancement via CLIP-Guided Prompt Learning and Symmetric Residual U-Net. Masters thesis, King Fahd University of Petroleum and Minerals.
|
PDF
Yasmin_Yasin_Master_Thesis_202214360_Final.pdf - Accepted Version Restricted to Repository staff only until 25 May 2026. Download (29MB) |
Arabic Abstract
تقدّم هذه الرسالة إطار عمل جديدًا غير خاضع للإشراف لتحسين الصور المعتمدة في ظروف الإضاءة المختلفة أو الإضاءة المنخفضة، من خلال الاستفادة من الإصدار الأولي الذي يوفر نموذج تهيئة الإضاءة باستخدام CLIP. يجمع النموذج المقترح بين التعلم بالتوجيه النصي (Prompt Learning) باستخدام CLIP، مع شبكة U-Net محسّنة تعتمد على الاتصالات البعيدة، وتدريبًا باستخدام وحدة ASPP لالتقاط إشارات متعددة النطاق من الصورة. بدلاً من الاعتماد على بيانات تدريب موسومة، يتم تعلم زوج من التهيئات النصية (Positive Prompt، Negative Prompt) تعمل كإشارات ناعمة ضمن مسار التعلم المشترك لنموذج CLIP، ما يوجه عملية التحسين نحو صور أكثر إضاءة وتوازنًا من الناحية الإدراكية. ثم تم تصميم الشبكة للحفاظ على التفاصيل الدقيقة، بينما تمكّن وحدة ASPP النموذج من تمثيل إشارات الإضاءة عبر مستويات مختلفة، ما يعزز استجابة النموذج للإضاءة خلال التدريب. أظهرت النتائج على مجموعات بيانات متنوعة أن النموذج المقترح يحقّق أداءً متفوقًا من حيث المقاييس الكمية والجودة البصرية مقارنة بالطرق القائمة حاليًا. كما يُظهر النموذج غير الخاضع للإشراف استقرارًا عاليًا ومرونة في التعميم، ما يجعله مناسبًا للبيانات محدودة الموارد، ويفتح آفاقًا مستقبلية لتطبيقات تحسين الصور المعتمدة على فهم دلالي للإضاءة.
English Abstract
This thesis introduces a novel unsupervised framework for enhancing lowlight and backlit images by leveraging semantic guidance from a vision-language model. The method combines CLIP-guided prompt learning with a symmetric residual U-Net enhanced by an Atrous Spatial Pyramid Pooling (ASPP) module. Rather than relying on paired data, we learn a pair of textual prompts that serve as soft supervision within CLIP’s embedding space, steering the enhancement process toward perceptually well-lit outputs. Our enhancement network maintains spatial resolution and structural fidelity through residual connections, while the ASPP module enables multi-scale context awareness. An iterative optimization strategy refines both prompts and network weights, enabling co-adaptation over training. Extensive experiments across diverse datasets show that our approach achieves superior quantitative and qualitative results compared to existing unsupervised methods, and in many cases, rivals supervised baselines. These findings demonstrate the efficacy of integrating semantic priors into low-level vision tasks and establish a foundation for further research in language-guided image enhancement.
| Item Type: | Thesis (Masters) |
|---|---|
| Subjects: | Computer Research |
| Department: | College of Computing and Mathematics > Information and Computer Science |
| Committee Advisor: | Usman, Muhammad |
| Committee Members: | Anwar, Saeed and Niazi, Mahmood |
| Depositing User: | YASMIN YASIN (g202214360) |
| Date Deposited: | 22 Jul 2025 07:07 |
| Last Modified: | 22 Jul 2025 07:07 |
| URI: | http://eprints.kfupm.edu.sa/id/eprint/143618 |