Leveraging Feature Engineering for Malware Detection Using Ensemble Learning

Leveraging Feature Engineering for Malware Detection Using Ensemble Learning. Masters thesis, King Fahd University of Petroleum and Minerals.

[img] PDF
Katib_Thesis.pdf - Accepted Version
Restricted to Repository staff only until 17 May 2025.

Download (3MB)

Arabic Abstract

تشكل متغيرات البرامج الضارة تحديًا مستمرًا لمصنفات التعلم الآلي. تستخدم الأساليب الحالية طريقتين رئيسيتين: الاعتماد على ميزة واحدة أو استخدام العديد من الميزات. تقترح هذه الأطروحة التعلم الآلي المتقدم لاكتشاف البرامج الضارة استنادًا إلى هندسة الميزات المتقدمة (MLMD-AFE)، وهو نهج يدمج هندسة الميزات ونماذج التعلم المجمعة المحسنة لاكتشاف متغيرات البرامج الضارة في Windows. تم تقديم أسلوب هندسة الميزات الذي يقوم بتحليل واختيار أفضل الميزات لاكتشاف البرامج الضارة. يتم جمع مجموعة بيانات حديثة من البرامج الضارة وتحليلها لتقييم MLMD-AFE بدقة. أظهر تطبيق MLMD-AFE على مجموعات الميزات المعروفة أنه يمكن تقليل عدد الميزات بنسبة 80% مع الحفاظ على نفس الدقة البالغة 99.09% ودرجة F1 البالغة 99.06%. أظهر MLMD-AFE فعاليته في تقليل عدد الميزات، وتحسين عملية التعلم، وتقليل العبء الحسابي في اكتشاف البرامج الضارة.

English Abstract

Malware variants pose a persistent challenge for machine learning classifiers. Existing methods used two main approaches: rely on a single feature or employ many features. This thesis proposes Machine Learning for Malware Detection Based on Advanced Feature Engineering MLMD-AFE, an approach that integrates advanced feature engineering and optimized ensemble learning models to detect malware variants in Windows. A feature engineering approach that analyzes and selects the best features for malware detection is introduced. A recent malware dataset is collected and analyzed to evaluate MLMD-AFE thoroughly. The application of MLMD-AFE to well-known feature sets showed that the number of features could be reduced by 80% while maintaining the same accuracy of 99.09% and F1-Score of 99.06%. MLMD-AFE showed its effectiveness in reducing the number of features, optimizing the learning process, and minimizing the computational overhead in malware detection.

Item Type: Thesis (Masters)
Subjects: Computer
Department: College of Computing and Mathematics > Information and Computer Science
Committee Advisor: Bounceur, Ahcene
Committee Members: Hammoudeh, Mohammad and Azzedin, Farag
Depositing User: RAED KATIB (g202212980)
Date Deposited: 20 May 2024 07:31
Last Modified: 20 May 2024 07:31
URI: http://eprints.kfupm.edu.sa/id/eprint/142836