Network Traffic Analysis Using Approximate Hash Matching

Network Traffic Analysis Using Approximate Hash Matching. Masters thesis, King Fahd University of Petroleum and Minerals.

[img]
Preview
PDF
AbdullahQasem_201403240_Thesis.pdf - Accepted Version

Download (3MB) | Preview

Arabic Abstract

حجم البيانات التي تنتجها شبكات الحاسب بما فيها الصغيرة منها في اليوم الواحد كبير جدا. هذه البيانات من اليسر جدا اعتراضها وتخزينها سواء من أجل معالجتها وتحليلها بشكل آني أو في وقت لاحق. هذه البيانات التي تنتجها الشبكات تحتوي على العديد من البيانات الحساسة والتي من الممكن استغلالها. تحليل بيانات شبكات الحاسب هو أحد المجالات التي تهتم بإدارة ومعالجة وتحليل هذه البيانات. تحليل بيانات شبكة الحاسب له عدة تطبيقات منها هجوم بصمة المواقع الالكترونية، والتي من خلاله يهدف المخترق لتحديد هوية الموقع الذي يزوره المستخدم الضحية، تحسس وجود البرمجيات الخبيثة على شبكة الحاسب وغيرها من التطبيقات. أحد التحديات الرئيسية التي تواجه الحلول المقدمة في مجال تحليل البيانات هو قابلية التوسع، خصوصا أن شبكة الأنترنت تتوسع يوميا بشكل كبير جدا. خوارزميات الذكاء الاصطناعي أسهمت بشكل كبير في مجال تحليل بيانات شبكة الحاسب، لكن هذه الحلول لكي تصبح قابلة للتوسع تحتاج الى أجهزة حاسب ذات سرعات عالية جدا لتشغيلها. بالإضافة الى انها تحتاج الى عدد كبير من النماذج لتستطيع من خلالها التعلم من أجل الحصول حل شبه مثالي. قابلية التوسع مشكلة رئيسية في مجالات عدة منها مجال التحقيق الجنائي الالكتروني. حيث أن المحققون الجنائيون يواجهون مشكلة فحص كم كبير من البيانات المخزنة في أقراص صلبة ذات سعة تخزينية كبيرة في زمن قياسي. لحل تلك المشكلة لجأ الباحثون الى تطبيق نظرية بصمة البيانات. نتيجة لهذا التوجه تم تصميم العديد من الأدوات. تلك الأدوات أثبتت التجارب أنها كفؤه. حيث أنها تقوم بإنشاء بصمة للبيانات ومعالجتها ومقارنتها بشكل سريع. لحل مشكلة قابلة التوسع في مجال تحليل بيانات شبكة الحاسب قمت بتقديم حل يتبنى نظرية بصمة البيانات للاستفادة من خاصية التوسع التي تمتلكها. لتقييم جودة الحل المقترح قمت بمحاكاة هجوم بصمة المواقع الالكترونية على الشبكات التي تستخدم طبقة واحدة من التشفير مثل الشبكات الافتراضية الخاصة والشبكة الداخلية اللاسلكية أو الشبكات التي تستخدم عدة طبقات من التشفير كتلك المستخدمة في متصفح تور الشهير. الحل المقدم أثبت كفاءة عالية في بيئة الشبكات التي تستخدم طبقة تشفير واحدة، بينما أظهر كفاءة متواضعة على الشبكات التي تستخدم عدة طبقات من التشفير. إضافة الى ذلك، الحل المقترح أثبت كفاءة عالية في عملية تقسيم البرمجيات الخبيثة الى مجموعات بناء على بياناتها المتناقلة في الشبكة. حيث تم خلق بصمة الكترونية لكل مجموعة بحيث يسهل عملية تحسس وجودها على شبكة الحاسب.

English Abstract

Communication networks, even small ones, generate a huge amount of network traffic every day. Furthermore, networking traffic can be captured to be either analyzed at run-time or stored to be later inspected. Captured network traffic packets include a lot of sensitive data that can be extracted. Traffic analysis is the process of extracting useful/sensitive information from observed network traffic. Typical use cases include Internet traffic classification, malware detection, and website fingerprinting attacks. Given the large size of network traffic data, the most important feature of efficient traffic analysis techniques is scalability. The Internet is expanded every minute. Machine learning techniques have shown promising results in traffic analysis attacks, in particular, website fingerprinting. However, to be scalable, such techniques need parallel computation. Furthermore, network traffic classification using machine learning performs poorly when the number of classes incorporated in the training increases. In addition, it needs sufficient training samples in order to produce good accuracy results. Consequently, high accuracy traffic analysis techniques use heavy machine learning algorithms (e.g. SVM) making them not applicable in large scale and real-time scenarios. Recently, efficient tools in data fingerprinting have been developed to help digital forensics investigators to identify artifacts within hard disk images with Terabytes of data. Such techniques turned out very efficient and providing high accuracy with a small false positive rate. Inspired by digital forensics techniques, we propose a new network traffic analysis approach based on similarity digest. The approach features several advantages compared to existing techniques, namely, fast signature generation, a compact signature representation using Bloom filters, efficient similarity detection between packet traces of arbitrary sizes, etc. Experimental results show very promising results for VPN and malware traffic, encrypted wireless traffic, but low results for Tor traffic.

Item Type: Thesis (Masters)
Subjects: Computer
Department: College of Computing and Mathematics > Information and Computer Science
Committee Advisor: Zhioua, Sami
Committee Members: Ghouti, Lahouari and Ahmed, Moataz
Depositing User: ABDULLAH QASEM (g201403240)
Date Deposited: 07 Aug 2017 08:59
Last Modified: 30 Dec 2020 13:27
URI: http://eprints.kfupm.edu.sa/id/eprint/140430