Finding associations between microRNAs/protein domains and diseases: A graph-based approach

Finding associations between microRNAs/protein domains and diseases: A graph-based approach. Masters thesis, King Fahd University of Petroleum and Minerals.

[img] PDF
AhmedElmoselhyThesis_ePrint.pdf - Accepted Version
Restricted to Repository staff only until 10 January 2024.

Download (3MB)

Arabic Abstract

الميكرو رنا ( )miRNAهي عبارة عن جزيئيات احماض نووية ريبوزية صغيرة غير مرمزة للبروتينات وتشترك في عملية التعبير الجيني. من الممكن أن تكون جزءا من عملية "القمع الجيني" حيث يمكن ان يُمنع جينا ما من انتاج البروتين ال ُمعد لإنتاجه. اقترحت العديد من الدراسات البحثية ان الميكرو رنا تلعب دورا مهما في تطور العديد من الأمراض، ومنها أمراض السرطان. إن إيجاد علاقات صلة بين بعض من الميكرو رنا وأمراض معينة يمكن ان يساعد في تطوير علاجات لهذه الأمراض. بما أننا نعيش اليوم في عصر ال ” ،“-omicsتوجد هناك كميات هائلة من البيانات البيولوجية في قواعد البيانات العامة، نطاقات البروتين هي مكونات بيولوجية اساسية في دورة حياة أي خلية في الكائنات الحية. بالاعتماد على تلك البيانات، تم تطوير العديد من الطرق الحسابية لإيجاد علاقات صلة بين الميكرو رنا والأمراض. لم يصل الى علمنا أنه تم استخدام تقنيات تحليل الشبكات جنبا الى جنب مع بيانات تخص نطاقات البروتين في سياق ايجاد علاقات صلة بين الامراض والميكرو رنا. في هذه الأطروحة، قمنا بجمع ودمج العديد من انواع البيانات البيولوجية وكذلك قدمنا نموذج شبكي متعدد الطبقات وغير متجانس والذي يمثل العديد من المركبات البيولوجية. أيضا، تم تقديم مقياس جديد لقياس اهمية النقاط على الشبكة ك ْونه مقياسا لمعضلة التنبؤ بالرابط لإيجاد علاقات صلة بين الميكرو رنا والامراض. تم اختيار سرطان الثدي كدراسة حالة لإثبات صلاحية الدراسة. كنتيجة للعمل المقدم، يمكن دراسة الشبكة المقدمة للإجابة على اسئلة اضافية تخص البيانات المتاحة. تم توفير قائمة مرتبة تنازليا تحتوي على الميكرو رنا المرتبطة بمرض سرطان الثدي. تم التحقق من نتائج هذا العمل بالرجوع الي المراجع الموثوقة ذات الصلة بهذا الموضوع. للتأكد من ثبات وجودة نهجنا، قمنا بعدة تجارب للتحقق من صحته. على وجه التحديد، قمنا بإزالة مجموعة من العقد الرئيسية التي تعتبر عقد ذات نسبة درجة عالية ومجموعة من العلاقات من الشبكة وإعادة تقييم العقد المعدلة. من خلال هذه التجارب للتحقق من الصحة، كان لدينا القدرة على التثبت من أن نهجنا قابل للتعامل مع إزالة هذه العناصر الرئيسية، مما يدل على احتمالية إنتاج نتائج ثابتة حتى عند التطبيق على الشبكات التي تمتلك بنيات مختلفة أو فقدان من المعلومات. هذا يدعم بعد ذلك صحة نهجنا والثقة التي يمكننا الاعتماد عليها في أدائه. تم كذلك إتاحة النموذج النهائي حتى يتثنى العمل عليه واستخراج روابط لإمراض اخري. من الممكن أيضا ان يتم استخدام المقياس العام المقدم لقياس الاهمية النسبية بين نوعين مختلفين من البيانات باعتبار انه يمكن نمذجتهم على شكل شبكة.

English Abstract

MicroRNAs(miRNAs) are small non-coding RNA molecules that participate in gene regulation. They can be part of “gene silencing”, where a gene can be prevented from producing its corresponding product (i.e., protein). Several studies suggested that microRNAs play a crucial role in the development of several diseases, including cancer diseases. Therefore, finding associations between microRNAs and diseases can help in understanding the mechanisms of those diseases, let alone developing treatments for them. As we currently live in the “-omics” era, there are myriad amounts of biological data available in online public databases. One type of biological data among those available ones is data about protein domains. Protein domains are essential biological compounds in the life cycle of almost every cell in living organisms. Relying on that data, several computational approaches have been proposed to find associations between microRNAs and diseases. To our knowledge, graph analysis techniques, coupled with protein domains data, have not been studied in detail in the context of finding associations between diseases and microRNAs. In this thesis, we aimed at providing a novel computational method to solve the problem of finding microRNAs-diseases associations. In doing so, we managed to integrate biological data from multiple resources. We collected different types of data, including, but not limited to, data about genes, protein domains, and microRNAs. The collected data has gone through a data cleaning, preprocessing, and integration pipeline. Finally, the resulting curated dataset has been encoded and modeled as a multi-bipartite graph. The final graph model is a heterogeneous one, in terms of nodes as well as edges. Having the graph model, we then leveraged the graph representation, which highlights the importance of interconnectivity within the data, to find associations between diseases and microRNAs. To do so, we devised a new node centrality measure, namely the modified node degree centrality measure. The modified node degree centrality has been used as a similarity measure to find associations between microRNAs and diseases and similarities between protein domains and diseases. Breast cancer was chosen as a case study in this thesis. A ranked list of associated breast cancer-associated microRNAs has been reported, and several resources have been used to validate the results of the proposed work. In order to ensure the reliability and robustness of our approach, we conducted a series of validation experiments. Specifically, we removed a subset of hub protein nodes, which are the nodes with high degree, and a subset of edges from the graph and re-evaluated the modified node degree centrality. By conducting these validation experiments, we were able to demonstrate that our approach is robust to the removal of these key components, indicating that it is likely to produce reliable results even when applied to graphs with different structures or missing information. This further supports the validity of our approach and the confidence we can have in its performance. Finally, the microRNA-disease graph model is provided, so that it can be utilized to uncover microRNAs associations for other diseases, and it can be further studied to answer more biological questions. Also, the newly devised centrality measure can be used to calculate the relative importance of entities with different types, given that they can be modeled as a multi-bipartite graph.

Item Type: Thesis (Masters)
Subjects: Computer
Department: College of Computing and Mathematics > Information and Computer Science
Committee Advisor: Ramadan, Emad
Committee Members: Ahmed, Moataz and Boudellioua, Imane
Depositing User: AHMED EL MOSELHY (g201708150)
Date Deposited: 11 Jan 2023 12:14
Last Modified: 11 Jan 2023 12:14
URI: http://eprints.kfupm.edu.sa/id/eprint/142315