Developing a Robust Framework for Detecting AI-Generated content. Masters thesis, King Fahd University of Petroleum and Minerals.
|
PDF (THESIS)
Shahzad_Thesis_uncompressed.pdf Restricted to Repository staff only until 19 April 2027. Download (42MB) |
Arabic Abstract
شهدت تقنيات الذكاء الاصطناعي (AI) تطوراً سريعاً في السنوات الأخيرة، مما أدى إلى ظهور نماذج توليد قوية مثل الشبكات التوليدية الخصامية (GANs)، ونماذج الانتشار (Diffusion Models)، والنماذج الحديثة المعتمدة على تدفّق البيانات. وقد مكّنت هذه التقنيات من ابتكارات واسعة في المجالات الإبداعية والتقنية، إلا أنها في الوقت نفسه طرحت تحديات كبيرة أمام موثوقية الوسائط الرقمية والتحقيقات الجنائية، نظراً لصعوبة التمييز بين المحتوى الحقيقي والمحتوى المُولَّد آلياً. تتناول هذه الرسالة مهمة كشف الفيديوهات المُولَّدة بواسطة الذكاء الاصطناعي باستخدام إطار تقييم مضبوط يعتمد على تمثيل المشاهد على مستوى مجموعة من الإطارات. تم إنشاء مجموعة بيانات متوازنة تضم 3000 مقطع فيديو، منها 1500 مقطع حقيقي و1500 مقطع مُولَّد باستخدام أنظمة حديثة من نوع نص-إلى-فيديو وصورة-إلى-فيديو، بما في ذلك Google Veo، وOpenAI Sora، وCogVideoX، وPyramid Flow Matching، وRunway Gen-2، وGenmo، وKling. وتم توزيع هذه المقاطع على 60 فئة دلالية تغطي أنشطة بشرية وحيوانات ووسائل نقل. كما يُمثَّل كل فيديو من خلال مجموعة من الإطارات المأخوذة بشكل منتظم، مما يتيح تحليلاً مكانياً متسقاً مع تغطية زمنية محدودة من خلال استخدام عدة إطارات ممثلة للمشهد. تم اختبار سبعة نماذج بصرية مُدرَّبة مسبقاً—ResNet-50، وEfficientNet-B3، وVGG-16، وConvNeXt-Tiny، وViT-B/16، وInception-v3، وXception—عبر عدة مهام للكشف، بما في ذلك التصنيف الثنائي (حقيقي مقابل مولَّد)، وتصنيف 60 فئة دلالية، وتصنيف 120 فئة تجمع بين الدلالة والأصالة. كما تم إدخال تجربة تشويه DownUp كوسيلة محكومة لمحاكاة تأثيرات إعادة التحجيم التي تحدث عادةً على منصات التواصل الاجتماعي. أظهرت النتائج أن الكشف الثنائي في الظروف النظيفة يُعد مهمة سهلة نسبياً ضمن الإعداد التجريبي المستخدم، ويرجع ذلك على الأرجح إلى قدرة النماذج المُدرَّبة مسبقاً على استخلاص تمثيلات بصرية قوية قابلة للنقل. ومع ذلك، عند تدهور جودة البيانات وضعف الإشارات البصرية المهمة أو اختفائها، ينخفض أداء العديد من النماذج بشكل ملحوظ، مما يشير إلى اعتماد بعض النماذج على سمات دقيقة وسريعة التأثر، خصوصاً في الترددات العالية. وعلى الرغم من أن مهام التصنيف الأكثر تفصيلاً تظل صعبة بسبب تعقيدها الدلالي، فإن التحدي الأكبر يكمن في القدرة على الصمود: إذ تحافظ نماذج مثل ConvNeXt-Tiny وViT-B/16 على أداء قوي نسبياً تحت ظروف التشويه الواقعية، بينما تعاني نماذج أخرى من انخفاض حاد في الدقة. وتُبرز هذه النتائج الحاجة إلى تطوير أنظمة كشف أكثر قدرة على التعميم وأكثر صموداً، خاصة في البيئات التي تتعرض فيها الإشارات البصرية الأساسية للضعف أو التشويه.
English Abstract
Recent advances in artificial intelligence (AI) have enabled the generation of highly realistic synthetic videos through powerful models such as Generative Adversarial Networks (GANs), diffusion models, and emerging flow-based video generators. While these technologies support creative and technical innovation, they also introduce serious challenges for media integrity and digital forensics, as synthetic content becomes increasingly difficult to distinguish from authentic video data. This thesis investigates the detection of AI-generated videos using a controlled, scene-level evaluation framework. A balanced dataset of 3,000 videos was constructed, comprising 1,500 real and 1,500 synthetic samples generated using modern text-to-video and image-to-video systems, including Google Veo, OpenAI Sora, CogVideoX, Pyramid Flow Matching, Runway Gen-2, Genmo, and Kling. The videos span 60 semantic subclasses across human activities, animals, and transportation categories. Each video is represented as a sequence of uniformly sampled frames, enabling consistent spatial analysis with limited temporal coverage through multi-frame sampling. Seven pretrained visual backbones—ResNet-50, EfficientNet-B3, VGG-16, ConvNeXt-Tiny, ViT-B/16, Inception-v3, and Xception—were benchmarked across multiple detection tasks, including binary authenticity classification, 60-class semantic classification, and 120-class subclass x authenticity classification. A DownUp degradation experiment was also introduced as a controlled proxy for realistic resampling commonly encountered on social media platforms. The results show that clean binary detection is comparatively easy under the evaluated setting, likely because the pretrained backbones used in this study provide strong transferable visual representations. However, when the data is degraded and key visual cues are weakened or removed, the accuracy of several models drops sharply, suggesting that some architectures depend strongly on fragile, high-frequency cues. While the more fine-grained classification tasks remain challenging due to their increased semantic complexity, the most important limitation lies in robustness: models such as ConvNeXt-Tiny and ViT-B/16 maintain comparatively strong performance under realistic distortions, whereas others experience severe declines. These findings highlight the need for detection frameworks that generalize beyond clean conditions and remain effective even when important visual signals are degraded.
| Item Type: | Thesis (Masters) |
|---|---|
| Subjects: | Computer |
| Department: | College of Computing and Mathematics > Information and Computer Science |
| Thesis Advisor: |
Wasfi Al-khatib,
|
| Thesis Committee Members: |
Mahmoud Niazi,
Saeed Anwar,
|
| Depositing User: | SHAHZAD KHAN (g202216360) |
| Date Deposited: | 20 Apr 2026 04:48 |
| Last Modified: | 20 Apr 2026 04:48 |
| URI: | http://eprints.kfupm.edu.sa/id/eprint/144131 |