Explainable Deep Learning Based Viral Sequence Classification and Potential Threat Identification for Biosecurity Surveillance

Explainable Deep Learning Based Viral Sequence Classification and Potential Threat Identification for Biosecurity Surveillance. Masters thesis, King Fahd University of Petroleum and Minerals.

[img] PDF
Thesis_g202391630_Kohinoor.pdf - Accepted Version
Restricted to Repository staff only until 7 January 2027.
Available under License Creative Commons Attribution.

Download (5MB)

Arabic Abstract

يُعدّ التعرّف السريع على مُمرِضات الفيروسات من بيانات الميتاجينوم المعتمدة على قراءات قصيرة أمرًا بالغ الأهمية لمراقبة الأمن الحيوي. إلا أنّه في السيناريوهات الواقعية لا يزال ذلك يمثل تحديًا بسبب تفتّت التسلسلات وقِصرها واحتوائها على الضجيج، فضلًا عن تنوّع فيروسي غير معروف. يقدّم هذا العمل HOST-Vir، وهو إطار هجين قائم على المحوّلات في إعداد الفئات المفتوحة (open-set) لتصنيف تسلسلات فيروسية قابلة للتفسير باستخدام قراءات Illumina القصيرة. يدمج الإطار مُصنِّفًا ثنائيًا خفيفًا ومُقطَّرًا قائمًا على DNABERT لكشف القراءات الفيروسية بكفاءة عبر تحسين استخدام الموارد بنسبة 27%. كما يتضمن وحدة تصنيف متعددة الفئات مُعزَّزة بتنبؤات توافقية واعية بالتصنيف الهرمي (taxonomy-aware conformal prediction) للتعرّف على التهديدات الفيروسية المعروفة وكذلك غير المرئية سابقًا. بالإضافة إلى ذلك، يشتمل الإطار على واجهة تفسيرية تعتمد على أسلوب التدرّجات المتكاملة (Integrated Gradients) لإسناد الأهمية على مستوى النيوكليوتيد. وقد تم تطوير خط أنابيب منهجي لتنقيح البيانات لبناء مجموعات بيانات متوازنة لقراءات فيروسية من ميتاجينومات مياه الصرف الصحي واسعة النطاق. وبالمقارنة مع أحدث الأدوات، يحقق HOST-Vir درجة F1 كلية (macro) متفوقة تبلغ 91.1%، ودقة إعداد مغلق (closed-set) تبلغ 94.1% عبر 193 فئة فيروسية، ويُظهر قدرة استثنائية على الصمود في سياقات الأمن الحيوي، إذ نجح في تحديد 92% من التهديدات الفيروسية غير المرئية بمعدل قبول خاطئ منخفض. علاوة على ذلك، تؤكد تحليلات الإسناد أن قرارات النموذج تقاد بزخارف ذات دلالة بيولوجية للفيروسات المعروفة وبأنماط منتشرة للتهديدات الجديدة.

English Abstract

Rapid identification of viral pathogens from short-read metagenomic data is critical for biosecurity surveillance. But, in real-world scenarios, it remains challenging due to fragmented, short, and noisy sequences, as well as unknown viral diversity. This work presents HOST-Vir, a hybrid open-set transformer framework for explainable viral sequence classification using Illumina short reads. The framework integrates a lightweight, distilled DNABERT-based binary classifier for efficient viral read detection by optimizing 27% resource usage. It also features a multi-class classification module augmented with taxonomy-aware conformal prediction to identify both known and previously unseen viral threats. Additionally, the framework includes an explainability interface based on Integrated Gradients for nucleotide-level attribution. A systematic data curation pipeline was developed to construct balanced viral read datasets from large-scale wastewater metagenomes. Benchmarking against state-of-the-art tools, HOST-Vir achieves a superior macro F1-score of 91.1%, closed-set accuracy of 94.1% among 193 viral classes, and demonstrates exceptional resilience in biosecurity contexts, successfully identifying 92% of unseen viral threats with a low false acceptance rate. Furthermore, attribution analyses confirm that model decisions are driven by biologically meaningful motifs for known viruses and diffuse patterns for novel threats.

Item Type: Thesis (Masters)
Subjects: Computer
Research > Information Technology
Research > Engineering
Department: College of Computing and Mathematics > Information and Computer Science
Committee Advisor: Rahman, Md Mahfuzur
Committee Members: Mahmud, Mufti and Khan, Muhammad Faizan
Depositing User: MD SAIDUR KOHINOOR (g202391630)
Date Deposited: 08 Jan 2026 04:54
Last Modified: 08 Jan 2026 04:54
URI: http://eprints.kfupm.edu.sa/id/eprint/143920