AN APPROACH TO IDENTIFY THE DISEASE-GENE ASSOCIATION THROUGH BIOLOGICAL NETWORKS TOPOLOGICAL FEATURES

AN APPROACH TO IDENTIFY THE DISEASE-GENE ASSOCIATION THROUGH BIOLOGICAL NETWORKS TOPOLOGICAL FEATURES. Masters thesis, King Fahd University of Petroleum and Minerals.

[img]
Preview
PDF
Thesis_paper_(Sadiq_Al-Insaif-ID#200665340).pdf

Download (2MB) | Preview

Arabic Abstract

المقدمة: علماء الأحياء يقوموا بإنتاج كم هائل من البيانات التي يصعب تفسيرها والإستفادة منها لتحليل الأمراض. وبالتالي، يلزم التوجه إلى إستخدام تقنيات التحليل الحسابي نحو أنطمة الشبكات البيولوجية لدراسة الأنطمة الحيوية بدلا من تقييم الأفراد فقط. وهذا يمكن أن يتحقق تجريبيا من خلال دراسة الأفراد ومن ثم كيف إن الأفراد تتفاعل مع الآخرين، ومن المعروف مثل هذا المفهوم يسمى بالشبكات. النهج: الشبكات البيولوجية المعقدة تتشكل من الآلاف من العقد والآلاف من التفاعلات التي يمكن أن توضح بإستخدام الشبكات. لذلك، يمكن استخدام نظريات الرسم البياني لترتيب وتقييم العقد (أي الجينات) من الشبكات البيولوجية للحصول على الخصائص والمعرفة الخفية. علاوة على ذلك، هذا البحث يطبق 14 من خوارزميات الترتيب والتقييم للجينات الوراثية, حيث تُغذى إلى نموذجين من تعليم الآلة لدراسة الجينات المتعله بسرطان الثدي. الأهم من ذلك، للتغلب على مشكلة البيانات المنحرفة تم اعتماد اسلوب صناعة عينات اصطناعية لزيادة العينات الأقلية والتخلص من العينات المفرطة بشكل عشوائي من أجل تحويل مجموعة البيانات غير المتوازنة إلى بيانات متوازنه. أخيرا، تم اقترح اسلوب جديد في هذه الدراسة لتقسييم البيانات ومن ثم تعليم نمذجي الآلة, وتم التحقق من قوة وصحة النمذجين من خلال حساب أربعة مقاييس. النتائج: لقد تم استخرج أربعة عشر خاصية على حدة كلاً من: شبكة التعبير، شبكة تفاعل البروتين، و شبكة التفاعل الوظيفي. ثم، تم استخدام هذه الخصائص من خلال نموذجين من تعليم الآله لكتشاف الأنماط المتعلقة بجينات سرطان الثدي. الجدير بالذكر، قبل تعليم نموذجي الآلة تم استخدام تقنية موازنة البيانات للتغلب على مشكلة البيانات المنحرفة وقد تم فعل ذلك في جميع الشبكات البيولوجية. باستخدام تقنيات مختلفة لتقييم الخصائص المستخرجة من الشبكات الحيوية, تم التوصل إلى ان "الدرجة المعيارية" أكثر الخصائص أهمية لكتشاف الأنماط المتعلقة بجينات سرطان الثدي. الخاتمة: في هذه الدراسة تم التعرف على مجموعة فرعية من الميزات الطوبوغرافية التي تعتبر هامة لتحديد جينات سرطان الثدي. وقد اعتمدنا بوجه الخصوص على خاصية 'الدرجة المعيارية' لتطبيق تحليل متعمق, والتي ساعدتنا على تحديد ثلاثة جينات قد تكون بشكل كبير متعلقة بمرض سرطان الثدي.

English Abstract

Background: biologists generate massive datasets which are difficult to interpret and make use of for further diseases analysis. Hence, computational analysis techniques are required towards systems biology. There is an urgent need to investigate a system rather than evaluating individuals solely. This could be experimentally accomplished through studying individuals and then how they are interacting with others, such a concept is known as networks. Approach: Complex biological networks constitute of thousands of nodes and thousands of interactions which could be represented as a graph. So, a graph theory could be utilized to rank nodes (i.e. genes) of the biological networks as individuals and as whole to retrieve the hidden properties and knowledge. Furthermore, this study applies different ranking algorithms (i.e. 14 ranking algorithms are used) and fed as features to two classification models which are decision tree bagger (DTB) and random under sampling boost (RUSBoost) to investigate the breast cancer genes. More importantly, to overcome the problem of the skewed datasets a synthetic minority oversampling technique (SMOTE) is adopted in order to transform an imbalanced dataset to a balanced one. Finally, we propose our modified co-cross validation technique to compute four-evaluation metrics (Accuracy, F-Measure, AUC, and Geometric Mean). Results: We have extracted fourteen features from publicly co-expression network, protein interaction network, and functional interaction network. Then, we use classification models to investigate the phenotype-gene association in breast cancer genes. Prior classification, a SMOTE sampling technique is utilized in all biological networks. By using a Hill-climbing feature selection approach and Pearson correlation coefficients, a subset features have been identified as important features to predict phenotype-gene association. Specifically, 'within module z-score' is identified as the most influential feature to predict breast cancer genes. Conclusion: We are able to identify sub-set of topological features that are significant to identify the breast cancer genes. We have adopted 'within module z-score' topological features to apply in-depth analysis which helped us to identify three genes that are subtle to breast cancer genes (i.e. ‘ZNF22’, ‘CUL2’, and ‘GTF2F2’).

Item Type: Thesis (Masters)
Subjects: Computer
Department: College of Computing and Mathematics > Information and Computer Science
Committee Advisor: Rafiul Hassan, Md
Committee Members: Ahmed, Moataz and Alshayeb, Mohammad and El-Bassuny, Tarek
Depositing User: SADIQ ABDU AL INSAIF (g200665340)
Date Deposited: 02 Jul 2014 12:39
Last Modified: 01 Nov 2019 15:43
URI: http://eprints.kfupm.edu.sa/id/eprint/139323