DETECTION OF DRUGGABLE PROTEINS USING MACHINE LEARNING TECHNIQUES

DETECTION OF DRUGGABLE PROTEINS USING MACHINE LEARNING TECHNIQUES. Masters thesis, King Fahd University of Petroleum and Minerals.

[img] Other (compressed file)
[ICS610]Thesis_Albandari_Final.rar
Restricted to Repository staff only until 23 March 2023.

Download (1MB)

Arabic Abstract

تستحوذ البروتينات الدوائية على إهتمام الباحثين حاليًا في مجال قابليتها للتداوي. يتم تصنيف البروتين كبروتين دوائي من خالل نسبة البروتين الذي يمكن أن يرتبط بخصائص كيميائية مناسبة ومألوفة بجسم مضاد أو جزيء صغير لتحقيق التأثير. تشير التقديرات إلى أن 60 ٪ من مشاريع اكتشاف األدوية تفشل ألن الهدف البيولوجي غير قابل للتفاعل مع البروتين ، وبالتالي تم تطوير طرق حسابية جديدة للكشف عن البروتينات القابلة للتفاعل مع األدوية )بروتينات دوائية( للمساعدة في تقليل الوقت بـ التجارب المعملية. ً والتكلفة إلجراء مثل هذه االكتشافات مقارنة ومع ذلك ، فإن األهداف غير القابلة للتداوي في ظل ظروف ا قابلة للتداوي في ظل ظروف أخرى، وبالتالي قد يُنظر إلى مشكلة البروتينات القابلة للتفاعل مع األدوية معينة قد تكون أهدافً )بروتينات دوائية( على أنها تجريبية بالضرورة. اقترحت العديد من الدراسات للكشف عن هذه البروتينات أساليب حسابيه من خالل استخدام البيانات المتاحة بطرق مختلفة. تهدف النماذج المقترحة في هذا المشروع إلى اكتشاف البروتينات القابلة للدواء باستخدام مجموعة متنوعة من تقنيات التعلم اآللي وطرق استخالص الميزات لتوليد سمات مميزة لكل بروتين. وهكذا قام هذا البحث بدراسة وتوضيح دور نماذج التعلم اآللي في الكشف عن البروتينات التي تدخل في صناعة األدوية ، بنا ًء على الميزات والسمات التي يمكن استخراجها من تسلسل البروتينات. في هذا البحث ، درسنا ثالثة نماذج مختلفة من التعلم اآللي وهي SVM و LR و LSTM .ثم تم إجراء التجارب الختبار مدى قدرة هذه النماذج الثالثة المختلفة على اكتشاف البروتينات القابلة للتعاطي، مع مراعاة تأثير طرق استخراج الميزات على أداء هذه النماذج. الكتشاف تسلسل البروتينات الدوائية بدقة البد من ان تأخذ السياقات النسبية في االعتبار’ للقيام بذلك تم اقتراح نموذج Word2vec لغرض تعلم تسلسل البروتين الذي يمكن تعميمه على بيانات التسلسل الجديدة الكتشاف البروتينات القابلة للتعاطي. قدم استخدام قيم مختلفة لحجم أدا بدقة 43.82 %وأسفر عن أدلة تجريبية توضح أن تطبيق قيم مختلفة لحجم النافذة في ًء النافذة مع Word2vec Word2vecيمكن أن يساعد في تحديد نموذج تعليمي مناسب لنمط تسلسل معين واحد على األقل. وبالتالي يمكن اعتبار زيادة قيمة حجم النافذة في نهج Word2vec طريقة فعالة الكتشاف تسلسل البروتين. الدوائي

English Abstract

Druggable proteins are currently caught researchers attention topic in the field of druggability. A druggable protein is identified by the percentage of the protein that can bind to an antibody or small molecule with adequate chemical properties and affinity to achieve the desired effect. It has been estimated that 60% of small molecule drug discovery projects fail because the biological target is non-druggable, and new computational methods for detecting druggable proteins have thus been developed to help to reduce the time and cost of making such discoveries as compared to laboratory experiments. However, targets that are undruggable under certain circumstances may be druggable targets under other conditions, and the druggability problem may thus be seen as necessarily empirical. Many studies have proposed to detect such proteins computationally by utilizing the available data in various ways. The proposed models in this thesis aim to detect druggable proteins using a variety of machine learning techniques and feature extraction methods to generate the feature vectors of each protein. This research thus studied and clarified machine learning models’ role in detecting druggable proteins, based on the features and attributes that can be extracted from the proteins’ sequences. In this research we considered three different ML models: SVM, LR, and LSTM. Experiments were then performed to test the extent to which these three different models were able to detect druggable proteins, with consideration given to the effect of feature extraction methods on the performance of these models. To accurately detect the druggable protein sequences and to design a detection tool that takes account of relative contexts, a Word2vec model was thus proposed for the purpose of learning the protein sequences that may be generalized to new sequence data for detecting the druggable proteins. Using various window size values with Word2vec offered high accuracy 82.43% and resulted in experimental evidence showing that applying various window size values of Word2vec can help determine an appropriate learning model for at least one particular sequence pattern. Increasing the window size value in the Word2vec approach may thus be considered a powerful way to detect protein sequences.

Item Type: Thesis (Masters)
Subjects: Computer
Department: College of Computing and Mathematics > Information and Computer Science
Committee Advisor: Ramadan, Emad
Committee Members: Ahmed, Moataz and Boudellioua, Imane
Depositing User: ALBANDARI ALYAMI (g201901850)
Date Deposited: 30 Mar 2022 07:45
Last Modified: 30 Mar 2022 07:45
URI: http://eprints.kfupm.edu.sa/id/eprint/142081