LEVERAGING ENSEMBLE LEARNING WITH GENERATIVE ADVERSARIAL NETWORKS IN IMBALANCED SOFTWARE DEFECTS PREDICTION

LEVERAGING ENSEMBLE LEARNING WITH GENERATIVE ADVERSARIAL NETWORKS IN IMBALANCED SOFTWARE DEFECTS PREDICTION. Masters thesis, King Fahd University of Petroleum and Minerals.

[img] PDF
Final Thesis_AMANI ALI ALQARNI.pdf - Accepted Version
Restricted to Repository staff only until 2 January 2025.

Download (3MB)

Arabic Abstract

يعد التنبؤ بعيوب البرمجيات مجالًا بحثيًا نشطًا. يقترح الباحثون العديد من الأساليب للتغلب على مشكلة الخلل غير المتوازن وبناء نماذج فعالة للغاية للتعلم الآلي وغير متحيزة تجاه فئة الأغلبية. تعد شبكات الخصومة التوليدية (GAN) واحدة من أحدث التقنيات التي يمكن استخدامها لتوليد عينات جديدة من فئة الأقلية وإنتاج مجموعة بيانات متوازنة. لم يتم دمج الطرق المستندة إلى GAN مع نماذج التعزيز في مجال التنبؤ بعيوب البرامج من قبل. لذلك، فإن الهدف الرئيسي من هذه الأطروحة هو الجمع بين الطرق المستندة إلى GAN (CTGAN, CWGANGP, GAN) مع نماذج التعزيز (AdaBoost) للتعامل مع مشكلة عدم التوازن وتحسين أداء التنبؤ بعيوب البرامج. لقد استكشفنا نهجين للجمع بين الأساليب المستندة إلى GAN مع .AdaBoost يستخدم النهج الأول الأساليب المستندة إلى GAN مرة واحدة فقط قبل AdaBoost ، بينما يستخدم النهج الثاني الأساليب المستندة إلى GAN في كل تكرار في .AdaBoost بالإضافة إلى ذلك ، استكشفنا تأثير المعلمات الفائقة ل GAN على أداء التنبؤ بعيوب البرامج. أثبتت النتائج التجريبية أن ضبط المعلمات الفائقة للطرق المستندة إلى GAN أدى إلى تحسين أداء التنبؤ بعيوب البرامج في معظم مجموعات البيانات. بالمقارنة مع أساليب معالجة عدم التوازن التقليدية، وجد أن الأساليب القائمة على GAN تفوقت على الأساليب التقليدية في النهج الأول. من ناحية أخرى، كان أداء الأساليب التقليدية أفضل في النهج الثاني. بالإضافة إلى ذلك، أظهرت النتائج أن الجمع بين نقص العينات مع الأساليب المستندة إلى GAN (باستخدام كلا النهجين) تسبب في تدهور أداء التنبؤ بعيوب البرامج.

English Abstract

Software defect prediction has been an active research area. Researchers are proposing many approaches to overcome the imbalanced defect problem and build highly effective machine learning models that are not biased towards the majority class. Generative adversarial networks (GAN) are one of the state-of-the-art techniques that can be used to generate new samples of the minority class and produce a balanced dataset. However, it was not investigated thoroughly in the area of imbalanced defect prediction. Therefore, the main objective of this thesis is to combine GAN-based methods (i.e., GAN, CWGANGP and CTGAN) with boosting ensembles (i.e., AdaBoost) to yield robust defect prediction models. We utilized GAN-based methods to generate synthetic minority class samples and AdaBoost to classify the modules in the defect datasets. We investigated two approaches to combine GAN-based methods with AdaBoost. The first approach uses GAN-based methods only once before employing AdaBoost, whereas the second approach uses GAN-based methods at each boosting iteration of AdaBoost. Our experimental results proved that hyperparameter optimization of GAN-based methods plays a vital role in improving the performance of imbalanced software defect prediction. In comparison to the traditional imbalance handling methods, it was found that GAN-based methods outperformed the traditional methods in the first approach. On the other hand, the traditional methods performed better than GAN-based methods in the second approach. Lastly, the experimental results showed that combining undersampling with GAN-based methods caused a degradation in the software defect prediction performance.

Item Type: Thesis (Masters)
Subjects: Computer
Department: College of Computing and Mathematics > Information and Computer Science
Committee Advisor: Aljamaan, Hamoud
Committee Members: Ahmad, Irfan and Khan, Fakhri
Depositing User: AMANI ALQARNI (g201906670)
Date Deposited: 03 Jan 2024 07:11
Last Modified: 03 Jan 2024 07:11
URI: http://eprints.kfupm.edu.sa/id/eprint/142723