Leveraging Vision-Language Models for Underwater Image Enhancement Using Contrastive Language-Image Learning. Masters thesis, King Fahd University of Petroleum and Minerals.
|
PDF (LEVERAGING VISION-LANGUAGE MODELS FOR UNDERWATER IMAGE ENHANCEMENT USING CONTRASTIVE LANGUAGE-IMAGE LEARNING)
MS Thesis_g202302730_Afrah Shaahid.pdf - Accepted Version Restricted to Repository staff only until 3 May 2027. Download (5MB) |
Arabic Abstract
تعاني الصور الملتقطة تحت الماء من تدهور شديد نتيجة الامتصاص والتشتت المعتمدين على الطول الموجي للضوء، مما يؤدي إلى تشوه الألوان، وانخفاض التباين، وفقدان التفاصيل. تقدم هذه الأطروحة إطارين مبتكرين للتعلم العميق يستفيدان من نماذج الانتشار والتوجيه اللغوي البصري لتحسين الصور تحت الماء. يعتمد نموذج AquaDiff على إطار قائم على نماذج الانتشار، وتعويض القنوات الموجَّه بمعرفة لونية مسبقة وآليات الانتباه المتقاطع، مع استخدام بنية U-Net محسّنة تتضمن كتلًا كثيفة متبقية، وانتباهًا مكانيًا متعدد الدقة، ودالة خسارة لاتساق عبر المجالات. أما نموذج UDAN-CLIP فيدمج بين الاستعادة المعتمدة على نماذج الانتشار والانتباه المكاني والتوجيه الدلالي للرؤية واللغة من خلال تدريب على مرحلتين مع الحفاظ على المعرفة الموجهة بالمصنِّف. تُظهر نتائج التقييم التجريبي عبر عدة مجموعات بيانات معيارية تفوقًا ملحوظًا مقارنة بأحدث الأساليب في هذا المجال. كما يتفوق النموذجان المقترحان بشكل كبير على الأساليب الحالية في تصحيح الألوان، والحفاظ على التفاصيل، وتقليل الضبابية، وتحسين الجودة الإدراكية، محققين نتائج رائدة وفق مقاييس التقييم المرجعية وغير المرجعية. تسهم هذه الأطر المقترحة في تطوير مجال تحسين الصور تحت الماء نحو تطبيقات عملية في البحوث البحرية والاستخدامات التطبيقية.
English Abstract
Underwater images suffer from severe degradation due to wavelength-dependent light absorption and scattering, causing color distortion, reduced contrast, and detail loss. This thesis presents two novel deep learning frameworks leveraging diffusion models and vision-language guidance for underwater image enhancement. AquaDiff employs a diffusion-based framework with chromatic prior-guided channel compensation and cross-attention mechanisms, utilizing an enhanced U-Net architecture with residual dense blocks, multi-resolution spatial attention, and cross-domain consistency loss. UDAN-CLIP integrates diffusion-based restoration with spatial attention and vision-language semantic guidance through two-stage training with classifier-guided knowledge preservation. Experimental validation across multiple benchmark datasets demonstrates superior performance compared to state-of-the-art methods. Both methods significantly outperform existing approaches in color correction, detail preservation, haze reduction, and perceptual quality, achieving state-of-the-art results on full-reference and no-reference evaluation metrics. The proposed frameworks advance the field of underwater image enhancement toward practical deployment in marine research and applications.
| Item Type: | Thesis (Masters) |
|---|---|
| Subjects: |
Computer Environmental Research |
| Department: | College of Computing and Mathematics > Information and Computer Science |
| Thesis Advisor: |
Muzammil Behzad,
|
| Thesis Committee Members: |
Moataz Ahmed,
Qasim Umer,
|
| Depositing User: | AFRAH SHAAHID (g202302730) |
| Date Deposited: | 04 May 2026 11:56 |
| Last Modified: | 04 May 2026 11:56 |
| URI: | http://eprints.kfupm.edu.sa/id/eprint/144165 |