Satellite to Street-view Generation. Masters thesis, King Fahd University of Petroleum and Minerals.
![]() |
PDF
KhawlahBajbaa_g202115030.pdf Restricted to Repository staff only until 26 May 2026. Download (33MB) |
Arabic Abstract
الحضرية؛ مما يسهل توليد رؤى ذات مغزى، والمساعدة في اتخاذ القرارات. يعد توليد صور منظر الشارع من صور الأقمار الصناعية المقابلة لها مهمةً صعبة؛ بسبب الاختلافات الكبيرة في المظهر ونقطة النظر بين هذين المجالين والتفاصيل فيهما؛ وعليه تقدم هذه الأطروحة إطار عمل في مجال التعلم العميق، وهو يعتمد على نموذج الانتشار المستقر(Stable Diffusion)؛ لتوليد صور مشاهد الشارع المتسقة جغرافيًا من خلال الاستفادة من صور الأقمار الصناعية، وذلك بالقيام بتدريب إطار العمل المقترح بشكل مشروط على صور الأقمار الصناعية بطريقة متعددة المراحل؛ باستخدام نموذج الانتشار المستقر كعنصر مبتكر. ومن أجل تحسين وظيفة هذا الإطار نقوم بدمج شبكة الخصومة التوليدية الشرطية (cGAN)، التي تساعد من إنتاج مناظر بانورامية متسقة جغرافيًا مع صور الأقمار الصناعية المدخلة، إضافة إلى ذلك تم استخدام استراتيجية دمج الصور؛ للاستفادة من قدرات نموذج شبكة الخصومة التوليدية؛ مما يبني تمثيلًا قويًا يعزز من اتساق الصور المولدة لمناظر الشوارع. وقد أجرينا تجارب واختبارات كمية ونوعية لتقييم نتائجنا، وتشير النتائج التي توصلنا إليها إلى أن إطار العمل المقترح قادر على توليد صور مناظر الشارع، والتي تظهر تفاصيل محلية ومتسقة جغرافيًا مع صور الأقمار الصناعية المدخلة.
English Abstract
Street view imagery has grown to become one of the most important sources of geospatial data collection and urban analytics, which facilitates generating meaningful insights and assisting in decision-making. Synthesizing a street-view image from its corresponding satellite image is a challenging task due to the significant differences in appearance and viewpoint between the two domains. This thesis presents a diffusion-based framework for generating geographically consistent street-view images by leveraging satellite images. We train our diffusion-based framework in a multi-stage fashion with a Stable Diffusion model as a novel component. To improve the framework functionality, we integrate the conditional GAN network, which enables the generation of geographically consistent panorama street views. In addition, a fusion strategy is incorporated to leverage the capabilities of different models, building a robust representation that enhances the consistency of generated street-view images. The proposed framework is trained on the challenging cross-view dataset: CVUSA. The experimental results indicate that our proposed framework is capable to generate realistic geometrically consistent street-view images and incorporating local details like street lines, sub-roads and clouds.
Item Type: | Thesis (Masters) |
---|---|
Subjects: | Computer Research > Remote Sensing |
Department: | College of Computing and Mathematics > Information and Computer Science |
Committee Advisor: | Usman, Muhammad |
Committee Members: | Mahmood, Sajjad and Anwar, Saeed |
Depositing User: | KHAWLAH BAJBAA (g202115030) |
Date Deposited: | 27 May 2025 04:49 |
Last Modified: | 27 May 2025 04:49 |
URI: | http://eprints.kfupm.edu.sa/id/eprint/143469 |