Referring Image Segmentation through Multimodal Vision Language Learning

Referring Image Segmentation through Multimodal Vision Language Learning. Masters thesis, King Fahd University of Petroleum and Minerals.

[img] PDF
Final_Thesis_Alaa_Saleh_Ahmad_Dalaq.pdf - Accepted Version
Restricted to Repository staff only until 9 May 2027.
Available under License Creative Commons Attribution No Derivatives.

Download (61MB)

Arabic Abstract

تلعب مهمة تقسيم الصور بالاعتماد على الأوصاف النصية دورًا مهمًا في مجال فهم العلاقة بين الرؤية واللغة، إذ تُمكّن النماذج من تحديد العنصر المقصود داخل الصورة استنادًا إلى وصف لغوي طبيعي. ومع ذلك، لا تزال هذه المهمة تمثل تحديًا كبيرًا بسبب تعقيد العبارات الوصفية، وغموض الدلالة، وتنوع المشاهد البصرية، وهو ما يتطلب توافقًا دقيقًا بين المعلومات البصرية واللغوية. وتتناول هذه الرسالة هذه التحديات من خلال تطوير أطر تكيفية وفعالة لتحسين أداء تقسيم الصور بالاعتماد على الوصف النصي. أولًا، نقترح نموذج سيج في إل إم (SegVLM)، وهو نموذج يجمع بين الرؤية واللغة ويعزز التفاعل بينهما من خلال تحسين الخصائص البصرية باستخدام آليات مرنة، إلى جانب استراتيجيات دمج أكثر فاعلية. ويسهم هذا النموذج في رفع دقة التقسيم، خاصة في الحالات الصعبة التي تتضمن التداخل بين العناصر، والتفاصيل الدقيقة، والتشابه البصري بين الأجسام. وقد أظهرت النتائج التجريبية فاعليته على مجموعة من قواعد البيانات القياسية. ثانيًا، نقدم إطار سيرا (SERA)، وهو إطار قائم على مبدأ مزيج الخبراء، حيث تُوجَّه المعلومات بصورة ديناميكية إلى مكونات متخصصة وفقًا لطبيعة التعقيد الدلالي والمكاني في المدخلات. ويتيح هذا التصميم معالجة أكثر مرونة ووعيًا بالسياق، مما يحسن قدرة النموذج على التعامل مع الأوصاف النصية المتنوعة والمشاهد المعقدة، ويعزز كذلك من قدرته على التعميم. وبوجه عام، تُظهر هذه الرسالة أن اعتماد البنى التكيفية وآليات توجيه الخبراء يمكن أن يسهم بصورة واضحة في تحسين التوافق بين الرؤية واللغة، بما يوفر إطارًا فعالًا وقابلًا للتوسع لتطوير أنظمة تقسيم الصور بالاعتماد على الأوصاف النصية في التطبيقات الواقعية

English Abstract

Referring image segmentation plays a key role in vision-language understanding by enabling models to localize objects from natural language descriptions. However, it remains challenging due to complex expressions, ambiguous semantics, and diverse visual scenes requiring precise cross-modal alignment. This thesis addresses these challenges by developing adaptive frameworks for robust referring image segmentation. First, we propose SegVLM, a vision-language model that enhances cross-modal interaction through deformable visual feature refinement and improved fusion strategies. By incorporating spatially adaptive representations and language-guided alignment, SegVLM improves segmentation accuracy, particularly in scenarios involving occlusion, fine-grained details, and visually similar objects. Experiments demonstrate strong performance on benchmark datasets. Second, we introduce SERA (Spatio-Semantic Expert Routing Architecture), a mixture-of-experts framework that dynamically routes information through specialized components based on semantic and spatial complexity. This enables flexible, context-aware processing, improving robustness and generalization across diverse referring expressions and complex scenes. Overall, this work shows that adaptive architectures and expert routing enhance vision-language alignment, providing an effective and scalable framework for referring image segmentation.

Item Type: Thesis (Masters)
Subjects: Computer
Department: College of Computing and Mathematics > Information and Computer Science
Thesis Advisor:
Muzammil Behzad,
Thesis Committee Members:
Hamzah Luqman, Abdul Jabbar Siddiqui,
Depositing User: ALAA DALAQ (g202320570)
Date Deposited: 13 May 2026 10:16
Last Modified: 13 May 2026 10:16
URI: https://eprints.kfupm.edu.sa/id/eprint/144273