Bioinformatics method for distinguishing phages from bacterial chromosomes and phage host interaction. Masters thesis, King Fahd University of Petroleum and Minerals.
![]() |
PDF
Bioinformatics_method_for_distinguishing_phages_from_bacterial_chromosomes_and_phage_host_interaction_final.pdf - Published Version Restricted to Repository staff only until 15 February 2026. Download (1MB) |
Arabic Abstract
تعد البكتيريا العاثية من أكثر الكائنات الحية وفرة على وجه الأرض، حيث تلعب دورًا حيويًا في تشكيل النظم البيئية والتأثير على المجتمع البشري. يعد تحديد التسلسلات الفيروسية، وخاصة الجديدة منها، من الميتاجينومات المختلطة خطوة أولى حاسمة في تحليل المكونات الفيروسية لعينات المضيف وهو أمر ضروري للعديد من المهام اللاحقة. ومع ذلك، فإن هذه المهمة صعبة بسبب المعدلات التطورية السريعة للبكتيريا العاثية. تتضمن هذه العملية عادةً التمييز بين التسلسلات الفيروسية ومضيفها وتحديد التفاعلات المحتملة بين الكائنات الحية. غالبًا ما تفشل الأساليب الميتاجينومية التقليدية التي تعتمد على تشابه التسلسل عند تحليل الجينومات القصيرة أو الجديدة. وهي طريقة تعتمد على التعلم العميق للتمييز بين تسلسلات البكتيريا والعاثية، بالإضافة إلى التنبؤ بالتفاعلات HVSeeker، في هذه الدراسة، نقدم نموذجين متميزين: أحدهما لتحليل تسلسل الحمض النووي والآخر لتسلسلات البروتين، مما HVSeeker بين الفيروسات والمضيف. يستخدم ثلاث تقنيات معالجة مسبقة: تقنية الحشو وتجميع الكونتيج والنافذة HVSeeker يتيح نهجًا شاملاً لتحديد الجينوم الفيروسي. لتعزيز التعلم، يدمج المنزلقة. ومن بين هذه الطرق، أظهرت تقنية الحشو أعلى دقة. ،IMG/VR و NCBI بنجاح مع تسلسلات تتراوح من 100 إلى 2000 زوج قاعدي وأظهر أداءً متفوقًا على قواعد بيانات HVSeeker يتعامل HVSeeker بالإضافة إلى ذلك، يمكن ل .PPR-Meta و DeepVirFinder و RNN-VirSeeker و Seeker متفوقًا على الأساليب الحديثة مثل تحليل التسلسلات ذات درجات التشابه تحليل التسلسلات ذات درجات التشابه المنخفضة وأظهر نتائج واعدة في التنبؤ بتفاعل الفيروس مع المضيف، مما يفتح فرصًا بحثية جديدة. تسلط الذي يجمع بين تقنيات المعالجة المسبقة المبتكرة ونماذج التعلم العميق لتوفير أداة فعالة HVSeeker، هذه النتائج الضوء على التصميم القوي ل لتحديد جينومات البكتيريا العصوية غير المعروفة ودراسة تفاعلات المضيف مع الفيروس.
English Abstract
Bacteriophages are among the most abundant organisms on Earth, playing a vital role in shaping ecosystems and influencing human society. Identifying viral sequences, particularly novel ones, from mixed metagenomes is a critical first step in analyzing the viral components of host samples and is essential for many downstream tasks. However, this task is challenging due to the rapid evolutionary rates of phages. This process typically involves distinguishing viral sequences from their host and identifying potential organism interactions. Traditional metagenomic approaches relying on sequence similarity often fail when analyzing short or novel genomes. In this study, we introduce HVSeeker, a deep learning-based method for distinguishing bacterial from phage sequences, as well as predicting virus-host interactions. HVSeeker employs two distinct models: one for DNA sequence analysis and another for protein sequences, enabling a comprehensive approach to viral genome identification. To enhance learning, HVSeeker incorporates three preprocessing techniques: padding, contig assembly, and sliding window. Among these, padding demonstrated the highest accuracy. HVSeeker successfully handles sequences ranging from 100 to 2000 base pairs and demonstrated superior performance on NCBI and IMG/VR databases, outperforming state-of-the-art methods such as Seeker, RNN-VirSeeker, DeepVirFinder, and PPRMeta. Additionally, HVSeeker can analyze sequences with low homology scores and showed promising results in virus-host interaction prediction, opening new research opportunities. These findings highlight HVSeeker’s robust design, combining innovative preprocessing techniques and deep learning models to provide an effective tool for identifying unknown phage genomes and studying host-virus interactions.
Item Type: | Thesis (Masters) |
---|---|
Subjects: | Computer |
Department: | College of Computing and Mathematics > Information and Computer Science |
Committee Advisor: | Tran, Van Dinh |
Committee Members: | Tran, Van Dinh and Khan, Fakhri Alam and Ramadan, Emad |
Depositing User: | ABDULLATIF ALNAJIM (g201234260) |
Date Deposited: | 16 Feb 2025 11:07 |
Last Modified: | 16 Feb 2025 11:07 |
URI: | http://eprints.kfupm.edu.sa/id/eprint/143283 |