Bioinspired Algorithm for Identifying Overlapping Clusters in Protein-Protein Interaction Networks

Bioinspired Algorithm for Identifying Overlapping Clusters in Protein-Protein Interaction Networks. Masters thesis, King Fahd University of Petroleum and Minerals.

[img]
Preview
PDF (M.S. Thesis)
Bioinspired_Algorithm_for_Identifying_Overlapping_Clusters_in_Protein-Protein_Interaction_Networks.pdf - Accepted Version

Download (6MB) | Preview

Arabic Abstract

نظرا لأهميتها البالغة في فهم الأنظمة الحيوية على المستوى الخلوي؛ احتلت دراسة الشبكات البيولوجية وتحليلها ـــ لا سيما في السنوات الآنية ـــ عناية فريدة واهتماما متميزا من قبل العديد من الباحثين؛ الأمر الذي استدعى تطوير العديد من الخوارزميات لدراسة هذه الشبكات وتحليلها. تسلط هذه الدراسة تركيزها على نوع واحد من الشبكات البيولوجية وهي: شبكة التفاعلات بين البروتينات والتي يمكن الحصول عليها من خلال استخدام بعض التقنيات مثل: Yeast-two hybrid و Mass spectrometry بالإضافة الى العديد من النماذج الحسابية. فاعتمادا على الخوازميات الجينية (Genetic Algorithm)، تقترح هذه الدراسة خوارزمية لدراسة شبكة التفاعلات بين البروتينات من خلال تصنيف البروتينات الى مجموعات تسمى (clusters) ؛ حيث إن البروتينات في كل مجموعة لديها وظيفة بيولوجية محددة. كما تجدر الإشارة إلى أنه يوجد العديد من العيوب في التطبيقات المتوفرة والمعتمِدة على الخوازميات الحالية لتصنيف البروتينات؛ وذلك لأنها لم تأخذ بعين الاعتبار بعض خصائص هذه الشبكات مثل: scale-free structure, disassortivity, small-world .multifunctionality and ومن هنا يأتي هدف هذه الدراسة لمساعدة متخصصي الأحياء لفهم المبادئ العامة التي تتحكم في كل العمليات البيولوجية. لقد قمنا في هذه الدراسة بتقييم نتائج الخوارزمية المقترحة عما إذا كانت تحتوي على أي أهمية بيولوجية عن طريق مقارنتها مع gene ontology terms، ثم مقارنة أداء الخوارزمية المقترحة مع خوارزميات أخرى: .MCL, MCODE and ClusterOneوبناءً على النتائج التي حصلنا عليها عند استخدام الطريقة المقترحة؛ يمكننا أن نقول: إن الطريقة المقترحة قادرة على الاّتي: (أ) إيجاد clusters ذات أهمية بيولوجية. (ب) تصنيف نسبة كبيرة من البروتينات الموجودة في شبكة التفاعلات بين البروتينات . (ج) كما تتسم هذه الطريقة بفاعلية أكثر من الخوارزميات الحالية (MCL MCODE and ClusterOne).

English Abstract

Recently, biological networks have attracted a lot of researcher efforts as they are very essential in increasing our knowledge of living systems at the cellular level. Consequently, several methods have been developed to study and analyze the topological features of such networks. In this work, we focus on particular biological networks, called protein-protein interaction networks (PPI) which obtained by using recent technologies such as yeast-two hybrid and mass spectrometry as well as several computational models. We develop algorithms for studying these networks. We aim to assist biologists to draw a conclusion about the general principles that control all the biological processes for producing a correctly functioning organism. The applications of the existing clustering methods applied on these networks would not gain good findings due to the scale-free structure, small-world, disassortivity and multifunctionality characteristics of PPI networks. We consider a genetic algorithm technique to develop a computational model for identifying functional modules in PPI network. We assess the quality of our findings whether they have any biological meaning by using gene ontology terms. Furthermore, we compare and validate the performance of our clustering approach with three competing clustering methods: MCL, MCODE and ClusterOne. Our analysis of the clusters identified demonstrates that our clustering approach: (a) can find several biologically significant protein complexes (group of proteins) compared to cellular component GO terms; (b) group higher percentage of proteins in the original network; and (c) is more effective than existing approaches (i.e., MCL, ClusterOne, and MCODE) when compared against two reference sets: MIPS and CYC2008.

Item Type: Thesis (Masters)
Subjects: Computer
Department: College of Computing and Mathematics > Information and Computer Science
Committee Advisor: Ramadan, Emad
Committee Members: Ahmed, Moataz and TAREK, EL-BASUNY
Depositing User: NAEF AHMED ABDULGLIL DAEL (g201002160)
Date Deposited: 02 Jun 2014 08:34
Last Modified: 01 Nov 2019 15:42
URI: http://eprints.kfupm.edu.sa/id/eprint/139225