Transformer-Based Video Inpainting With Dual-Encoder Enhancement: Striking The Balance Between Accuracy And Efficiency. Masters thesis, King Fahd University of Petroleum and Minerals.
|
PDF
MS_Thesis_Rahaf_Jaber.pdf Restricted to Repository staff only until 9 July 2026. Download (6MB) |
Arabic Abstract
يشير ﺍستكمال ﺍلفيديو ﺇلى عملية ملﺀ ﺍلمناطق ﺍلمفقوﺩﺓ ﺃو ﺍلمحجوبة في تسلسلاﺕ ﺍلفيديو بطر يقة تحقق ﺍلتناسق ﺍلمكاني وﺍلديناميكي عبر ﺍلإطاﺭﺍﺕ. وتُعد هذه ﺍلمهمة ﺃساسية في تطبيقاﺕ مثل تعديل ﺍلفيديو، ﺇﺯﺍلة ﺍلأجسام غير ﺍلمرغوﺏ فيها، وﺍستعاﺩﺓ ﺍللقطاﺕ ﺍلتالفة. على ﺍلرغم من ﺍلتقدم ﺍلذي حققته ﺍلنماﺫﺝ ﺍلحديثة مثل ProPainter من خلال ﺩمج ﺁلياﺕ ﺍلانتشاﺭ ثنائي ﺍلمجال وﺍلانتباه ﺍلمتناثر لتحقيق توﺍﺯن بين ﺍلجوﺩﺓ وﺍلـكفاﺀﺓ، ﺇلا ﺃن هذه ﺍلنماﺫﺝ لا تزﺍل توﺍجه صعوباﺕ في معالجة ﺍلحركاﺕ ﺍلمعقدﺓ ﺃو ﺍلتفاصيل ﺍلدقيقة ﺍلتي تتطلب فهمًا ﺩلاليًا عميقًا. يقترﺡ هذﺍ ﺍلبحث ﺇطاﺭًﺍ محسّنًا لاستكمال ﺍلفيديو يعتمد على ProPainter ويضيف تصميمًا جديدًﺍ قائمًا على مشفّر مزﺩوﺝ. يتكون هذﺍ ﺍلتصميم من مشفّر CNN خفيف لاستخلاﺹ ﺍلتفاصيل ﺍلمكانية ﺍلدقيقة، ومشفّر ResNet-50 موﺍﺯٍ لاستخلاﺹ ﺍلسماﺕ ﺍلدلالية عالية ﺍلمستوى. تُدمج ﺍلميزﺍﺕ ﺍلناتجة من كلا ﺍلمشفّرين وتمرُﺭ عبر وحدﺓ ترميم تعتمد على ﺍلانتشاﺭ ثنائي ﺍلمجال ﺍلمُوجّه بالتدفق، تليها محوّلاﺕ ﺍنتباه متناثرﺓ موجهة بالقناﻉ. تم تقييم ﺍلنموﺫﺝ على مجموعتي بياناﺕ قياسيتين هما DAVIS و YouTube-VOS باستخدﺍم مقاييس مثل PSNR و SSIM و VFID وعدﺩ ﺍلعملياﺕ ﺍلحسابية FLOPs وﺯمن ﺍلتنفيذ لكل ﺇطاﺭ. ﺃظهرﺕ ﺍلنتائج ﺃن نموﺫﺝ ﺍلمشفّر ﺍلمزﺩوﺝ يحقق جوﺩﺓ ﺍستكمال ﺃعلى مقاﺭنةً بـ ProPainter، مع ﺍلحفاﻅ على كفاﺀﺓ حسابية منافسة. كما تم ﺍقترﺍﺡ ﺇصدﺍﺭ منخفض ﺍلعمق من ﺍلمحول مناسب للبيئاﺕ محدوﺩﺓ ﺍلموﺍﺭﺩ، وحقق ﺃﺩﺍﺀً قويًا مع خفض كبير في ﺯمن ﺍلمعالجة. بالمقاﺭنة مع نماﺫﺝ حديثة مثل DLFormer و E2FGVI، يُظهر ﺍلنموﺫﺝ ﺍلمقترﺡ توﺍﺯنًا ممتاﺯًﺍ بين ﺍلجوﺩﺓ وﺍلـكفاﺀﺓ. ومن خلال تعزيز تمثيل ﺍلسماﺕ في مرحلة ﺍلترميز، يقدم هذﺍ ﺍلعمل حلاً قويًا وقابلًا للتوسيع لمهام ﺍستكمال ﺍلفيديو، مع ﺇمكانياﺕ وﺍعدﺓ للتطبيق في مهام ﺍستعاﺩﺓ ﺍلفيديو ﺍلوﺍقعية.
English Abstract
Video inpainting refers to the task of filling in missing or occluded regions in video sequences in a spatially plausible and temporally consistent manner. This task is critical for applications such as video editing, object removal, and restoration of corrupted footage. Recent approaches, such as ProPainter, have advanced the field by combining dual-domain propagation with sparse attention mechanisms to balance visual quality and computational efficiency. However, existing models still face limita- tions when dealing with complex motion patterns or scenes requiring high-frequency textures and strong semantic understanding. This thesis proposes an enhanced video inpainting framework that builds upon the ProPainter architecture through the integration of a novel dual-encoder design. Specifically, a lightweight CNN encoder is used to capture local texture and struc- tural continuity, while a parallel ResNet-50 encoder extracts high-level semantic fea- tures. The features from both encoders are fused and processed through an inpainting pipeline that includes flow-guided dual-domain propagation and a mask-guided sparse video transformer. This dual-encoder design enriches the feature representation, im- proving scene understanding, structure preservation, and the perceptual quality of the inpainted content. The proposed model is evaluated on the DAVIS and YouTube-VOS datasets using standard quantitative metrics, including PSNR, SSIM, VFID, FLOPs, and per-frame runtime. Results demonstrate that our dual-encoder architecture improves reconstruc- tion quality over ProPainter, while maintaining competitive computational efficiency. We also introduce a reduced-depth transformer variant that achieves strong perfor- mance in resource-constrained settings. Compared to state-of-the-art methods such as DLFormer, E2FGVI, and ProPainter, our framework achieves a favorable trade-off between quality and effi- ciency. By enhancing the encoding capacity while keeping the architecture lightweight, this thesis presents a robust and scalable solution for video inpainting, with potential for adaptation to other video restoration tasks. The work concludes by highlighting deployment bottlenecks, architectural insights, and promising directions for future research.
| Item Type: | Thesis (Masters) |
|---|---|
| Subjects: | Computer Research |
| Department: | College of Computing and Mathematics > Information and Computer Science |
| Committee Advisor: | Hammad, Omar |
| Committee Members: | Anwar, Saeed and Mahmood, Sajjad |
| Depositing User: | RAHAF JABER (g202212940) |
| Date Deposited: | 22 Jul 2025 07:04 |
| Last Modified: | 22 Jul 2025 07:04 |
| URI: | http://eprints.kfupm.edu.sa/id/eprint/143611 |