A novel high-impact phenotype selection method using a hybrid of AUC and HMM

A novel high-impact phenotype selection method using a hybrid of AUC and HMM. Masters thesis, King Fahd University of Petroleum and Minerals.

[img]
Preview
PDF (A novel high-impact phenotype selection method using a hybrid of AUC and HMM)
full.pdf - Accepted Version

Download (9MB) | Preview

Arabic Abstract

.سرطان الثدي الوراثي BRCA2 و الجين BRCA1 من المعلوم أن الطفرات التي تحصل على الجين تعتبر عملية تحديد و إكتشاف الجينات التي تأثرت بالطفرات عمليه صعبة و مكلفة بسبب عدد الجينات الكبير جدا، و العدد القليل من العينات. يفترض العلماء إختلاف الجينات المتأثره بهذين النوعين من الأورام. عدد الجينات المتأثرة بالأورام قد يكون مرتفعا أيضا مقارنة بالعدد الفعلي للجينات التي تؤدي إلى سرطان الثدي. كما أن، الطاقة المؤثرة الناتجة من مجموعه جزئية من الجينات في مكان معين يمكن أن تؤثر بشكل أكبر من تأثير جين واحد في حالة سرطان الثدي. تهدف هذه الدراسة إلى تطور تقنيه لتحديد مجموعة جزئية واحدة من الجينات ذوات التأثير العالي المرتبطة بقوة بسرطان الثدي. قمنا في هذه الدراسة بتطوير طرق إحصائية غير مراقبة و طرق إحصائية غير حدودية مراقبة لتحليل تعابير الجينات و الجينات المميزة بين الجينات ذات التأثير العالي. تم تصفية الجينات ذات الأهمية العالية بإستخدام مقياس المساحة تحت المنحنى (AUC). بعد ذلك تم إستخدام الجينات المصفاه في عملية بناء نموذج ماركوف المخفي (HMM) من أجل تحليل علاقاتهم الداخلية و تحديد أفضل مجموعة جزئية بينهم. بالإضافة إلى ذلك، تم بناء شبكة تفاعل بين البروتينات بهدف تحليل مسارات الجينات المختارة و إرتباطهم بالجينات BRCA1 و BRCA2. قمنا بتحديد عوامل النسخ (Transcription Factors)، بالإضافة إلى حساب Gene Set Enrichment Analysis (GSEA) الخاصة بالمجموعات الجزئية للجينات. ثم قمنا بالمقارنة النتائج مع النتائج الخاصة بأبحاث السرطان الأخرى. لا ينحصر تأثير الجينات المحددة على الجانب الإحصائي فقط، ولكن تبين أنها تملك تأثيرات حيوية مرتبطة مرض. بالإضافة إلى ذلك تظهر هذه الجينات بين الجينات التي تم أكتشافها في الدراسات الأخرى و مسارات الجينات. تتميز المجموعة الجزئية المستخرجة بإستخدام الطريقة المقترحة في هذه الدراسة، بصغر حجمها مقارنة بنتائج الدراسات الأخرى. أخيرا، تبين أن معظم الجينات التي تم تحديدها معروفة بعلاقتها القوية بسرطان الثدي.

English Abstract

It is well known that the mutations in BRCA1 or BRCA2 gene can cause the hereditary breast cancer. However, it is a tedious and expensive task to identify the mutant genes that impact breast cancer due to the large number of genes and very small number of samples. Researchers have hypothesized that the genes expressed by these two types of tumors are also distinctive. The number of expressed genes could also be very high compared with the actual number of genes that has impact on the cases of breast cancer. Furthermore, the expressive energy of the subset of genes in place of that of one individual gene at a time can be considered to have a profound inuence on the cases of breast cancer. Therefore, the objective of this study is to propose a method to identify a small subset of high-impact genes that are strongly related to breast cancer. A combination of a non-parametric supervised and an unsupervised statistical method is introduced to analyze the gene expressions and the distinctive genes among the highly expressed genes are identified. The most important genes are filtered using the area under the curve (AUC) measure. These filtered genes are then used to build a hidden Markov model (HMM) to analyze their inter-relationship and identify the best subset among them. In addition, Protein-Protein interaction network is generated to analyze the pathways of the identified genes and their link with BRCA1 or BRCA2. Transcription Factors are identified and Gene Set Enrichment Analysis (GSEA) is calculated for the identified genes subset and the results are compared with the results mentioned in other cancer literature. The identified genes are not only statistically significant but also illustrate biological significance related to the disease. These genes are also common among the genes that have been identified by other existing studies and gene pathways/ontology analysis. Moreover, the subset of genes extracted by our method is more compact than those previously investigated. Therefore, most of the genes identified by the hybrid method are known to be strongly related to breast cancer.

Item Type: Thesis (Masters)
Subjects: Computer
Research > Information Technology
Department: College of Computing and Mathematics > Information and Computer Science
Committee Advisor: Ahmed, Moataz
Committee Members: Alshayeb, Mohammad and Niazi, Mahmood and Mahmood, Sajjad
Depositing User: UL-HAQ IMRAN (g201002820)
Date Deposited: 20 Feb 2013 11:45
Last Modified: 01 Nov 2019 15:37
URI: http://eprints.kfupm.edu.sa/id/eprint/138851