SCALABLE MALWARE DETECTION USING APPROXIMATE HASH MATCHING

SCALABLE MALWARE DETECTION USING APPROXIMATE HASH MATCHING. Masters thesis, King Fahd University of Petroleum and Minerals.

[img] PDF
Thesis_OmarBawazeer.pdf
Restricted to Repository staff only until 4 September 2023.

Download (1MB)

Arabic Abstract

في الوقت الحاضر ، يعد اكتشاف البرامج الضارة مجالًا مهمًا في عالم الحوسبة. لتحقيق هذا الهدف ، تعد الأساليب الثابتة والديناميكية والهجينة هي التقنيات الرئيسية التي يتم استخدامها للكشف عن الأنشطة الضارة في أجهزة المستخدمين. يتم تطبيق هذه التقنيات باستخدام العديد من الأدوات والطرق مثل التعلم الآلي والعميق ، والشبكات العصبية ، وغيرها. تتمثل الفكرة الرئيسية لأنظمة الكشف عن البرامج الضارة في تحديد الميزات التي يمكن التعرف عليها بشكل واضح للبرامج الضارة واعتبارها بمثابة توقيعات للبرامج الضارة. ثم ، يتم استخدام التواقيع لحساب التشابه بينها وبين أنشطة أجهزة المستخدمين. تختلف هذه الأساليب والأدوات والتقنيات وفقًا لقدراتها وسرعتها وقابليتها للتوسع ومعدل اكتشاف البرامج الضارة. من خلال استكشاف مجال الطب الشرعي الرقمي ، نجد أن هناك العديد منمن خلال استكشاف مجال الطب الشرعي الرقمي ، نجد أن هناك العديد من الأدوات المستخدمة للكشف عن التشابه بين كائنات البيانات. من المعروف أن المطابقة التقريبية المستندة إلى التجزئة قابلة للتطوير ويمكنها التعامل مع بيانات سجلات الأحداث الضخمة بكفاءة عالية. و لها العديد من المزايا مقارنة مع الأساليب الحالية ، وهي استخدام طريقة فعالة من حيث استغلال المساحة لتمثيل التواقيع باستخدام فلاتر بلوم وكشف التشابه بكفاءة وسرعة الخ. وقد ألهمنا ذلك لاستخدام نهج التشابه الجزئي للكشف عن الأنشطة الضارة في أجهزة المستخدمين. في هذه الرسالة ، ندرس إمكانية استخدام نهج التشابه الجزئي للكشف عن البرامج الضارة بناءً على استدعاءات واجهة تطبيق البرنامج. و لهذا الغرض ، قمنا بتطوير بيئة جديدة ومحمية ويمكن التحكم بها ، وهي ProPeBox ، لجمع آثار أحداث البرامج الضارة و استدعاءات واجهة برمجة التطبيقات الخاصة بهم. تعتبر ProPeBox بيئة محمية لتشغيل المالوير بشكل آمن و تسجيل احداثها بكفائة مع الحفاظ على سلامة النظام المضيف للبيئة من الاصابة أو التأثر بالمالوير. نظرًا لأن التشابه الجزئي يعتمد بشكل أساسي على مطابقة السلاسل النصية، قمنا بتنفيذ خوارزمية أطول سلسلة فرعية مشتركة باستخدام طريقتنا المبسطة لاستخراج أطول السلاسل النصية من استدعاءات واجهة برمجة تطبيقات البرامج الضارة. وبالتالي يمكن اعتبار السلاسل النصية و التي تلبي معايير اختيار التواقيع كتوقيعات للبرامج الضارة. تظهر تجاربنا نتائج واعدة لاستخدام نهج AHBM في مجال الكشف عن البرامج الضارة. و تثبت هذه النتائج أيضًا فعالية استخدام طريقتنا المبسطة لاستخراج تسلسلات توقيعات البرامج الضارة باستخدام خوارزمية LCS. إلى جانب ذلك ، تكشف النتائج إمكانية استخدام منهج AHBM للكشف عن البرامج الضارة. كما توضح النتائج قابلية التوسع في نهج AHBM عندما يتعامل مع كمية هائلة من كائنات بيانات البرامج الضارة.

English Abstract

Nowadays, malware detection is a crucial field in the security world. In order to detect malicious activities in host machines, many techniques have been proposed. These techniques can be classified as static, dynamic and hybrid. They are implemented using different approaches and methodologies, such as machine and deep learning, neural networks, and others. The main idea of malware detection systems is to define the conspicuous recognizable features for a given malware and consider them as its signatures. These signatures are then compared with host machines activities logs using similarity computation. The methods, tools, and techniques vary based on their capabilities, speed, scalability, and malware detection rate. By exploring the digital forensics field, we noticed the existence of several tools used for detecting the similarity amongst data objects. In particular, the Approximate Hash-Based Matching (AHBM) approach is known to be very scalable and can deal with colossal events log data very efficiently. It has several advantages compared to the existing hash-based matching approaches, namely, using a space-efficient manner to represent the signatures using Bloom filters, efficiently and speedily similarity detection, quick signatures generation, etc. This inspired us to use the AHBM approach for detecting the malicious activities in the host machines. In this thesis, we study the capability of using the AHBM approach for malware detection based on API calls. For this purpose, we developed a new protected and controlled environment, namely, ProPeBox, to collect malware events traces including their API calls. ProPeBox is a protected environment since it can safely launch the malware and efficiently record their activities with protecting the host machine from malware infection. Given that AHBM is mainly dependent on string matching, we have implemented the Longest Common Substring (LCS) using our simplified method to extract the longest sequences of malware API calls and consider the sequences that meet the signatures selection criteria as the signatures of malware. The findings of our experiments show promising results for using the AHBM approach in the malware detection field. It also proves that the effectiveness of using our simplified method for extracting the sequences of malware signatures using the LCS algorithm. It also demonstrates the scalability of the AHBM approach when it deals with a massive amount of malware data objects.

Item Type: Thesis (Masters)
Subjects: Computer
Department: College of Computing and Mathematics > Information and Computer Science
Committee Advisor: Zhioua, Sami M.
Committee Members: Hassine, Jameleddine and Ramadan, Emad
Depositing User: OMAR BAWAZEER (g201407380)
Date Deposited: 07 Jun 2020 06:30
Last Modified: 07 Jun 2020 06:30
URI: http://eprints.kfupm.edu.sa/id/eprint/141597