A Framework for Testing Machine Learning Systems: Data-Box and Black-Box Perspectives

Albelali, Salma

Home

KFUPM ePrints

In this section

A Framework for Testing Machine Learning Systems: Data-Box and Black-Box Perspectives

Albelali, Salma (2026) A Framework for Testing Machine Learning Systems: Data-Box and Black-Box Perspectives. PhD thesis, King Fahd University of Petroleum and Minerals.

PDF
PhD_Salma_Albelali.pdf
Restricted to Repository staff only until 13 May 2027.
Download (40MB)

Arabic Abstract

أصبحت نظم التعلّم الآلي ركنًا أساسيًا في العديد من الأنظمة الحرجة وعالية المخاطر، في مجالات حيوية تشمل الطاقة والرعاية الصحية والنقل والقطاع المالي. ومع ذلك، لا تزال أطر اختبار هذه النظم مجزأة وغير متكاملة؛ إذ ينصبّ تركيز معظم المطوّرين حاليًا على تحسين بنية النماذج ودمج مراحل معالجة البيانات داخلها، دون وجود اختبارات معمّمة أو منهجيات قياسية راسخة لقياس جودة البيانات ومدى اتساقها مع متطلبات هذه النماذج. فمقاربات اختبار البرمجيات التقليدية، القائمة على منظورَي الصندوق الأبيض والصندوق الأسود، نادرًا ما تتعامل مع البيانات بوصفها هدفًا مباشرًا للاختبار، على الرغم من أن سلوك نظم التعلّم الآلي يتشكّل جوهريًا تبعًا للبيانات المستخدمة في التدريب والتحقّق. تسعى هذه الرسالة إلى سدّ هذه الفجوة عبر اقتراح إطار اختبار موحَّد لأنظمة التعلّم الآلي يضيف إلى منظورَي الصندوق الأبيض والصندوق الأسود منظورًا ثالثًا هو «صندوق البيانات»، الذي يجعل خصائص البيانات ومعالجتها محورًا رئيسيًا لعملية الاختبار. ويركّز الإطار المقترح على التكامل بين منظور صندوق البيانات ومنظور الصندوق الأسود، مع إيلاء اهتمام خاص بمهام التنبؤ بالسلاسل الزمنية. على المستوى المفاهيمي، تطرح هذه الرسالة منظور اختبار «صندوق البيانات» بوصفه بُعدًا مكمِّلًا لاختبارَي الصندوق الأبيض والصندوق الأسود، ويرتكز على أربع خصائص جوهرية للبيانات: التوازن، والضوضاء، والكفاية (جودة البيانات/كثافتها)، والسعة الحجمية (حجم العينة مقارنة بحجم النموذج). وتُصاغ هذه الخصائص، إلى جانب فرضيات اختيار تقنيات التحقّق وبناء الإطار، في ست فرضيات بحثية رئيسية مترابطة. وعلى المستوى المنهجي، تطوِّر الرسالة منهجية تجريبية متكاملة تُطبَّق على ثلاث عشرة مجموعة بيانات حقيقية ومعتمدة للسلاسل الزمنية، وعلى أربع عائلات من النماذج تمثِّل الممارسات الشائعة: نموذج Transformer (iTransformer) والنموذج الخطي (DLinear) والنماذج المتكرِّرة من نوع LSTM وGRU. ويُجرى تقييم الأداء باستخدام مقاييس مثل (R2) وRelMSE وRelMAE. بالإضافة إلى ذلك، أُعيد تنفيذ كل إعدادٍ تجريبي عشر مرّات باستخدام عشرة بذور عشوائية مختلفة، ثم حُسب متوسّط الأداء مع فواصل ثقة (مثل فاصل الثقة ٩٥٪) لتحديد مجال التقلّب المتوقَّع لنتائج النموذج وضمان استقرارها إحصائيًا وعدم الاعتماد على تجربة واحدة فقط. كما نقترح في هذا العمل مقياسين جديدين، هما SQP وSSP، لتوصيف خصائص البيانات والنماذج من منظور صندوق البيانات. تُظهر النتائج التجريبية أن التوزيع النسبي للفئات أو المواسم في مجموعة البيانات لا يشكِّل، بمفرده، مؤشرًا موثوقًا على توازن البيانات ما لم تُؤخذ في الحسبان عوامل أخرى مثل حجم العينة، والانتشار الزمني للعينات عبر فترة الدراسة، وثراء البيانات بالمعلومات، ونوعية البيانات نفسها (الفرضية ٣،١). كما تبيَّن أن البيانات المشوَّشة تُظهر أنماطًا مميِّزة في سياق الاختبار، مثل عدم استقرار مقاييس الأداء وحساسيتها العالية لهيكلة البيانات (مثل طول نافذة الإدخال وأفق التنبؤ)، ويمكن استغلال هذه الأعراض لتعريف اختبارات عملية للضوضاء ضمن منظور صندوق البيانات (الفرضية ٣،٢). وتُظهر النتائج كذلك أن كفاية البيانات ترتبط بقوة بتكرار الأنماط المميِّزة تحت إعدادات محدَّدة لطول النافذة وأفق التنبؤ، حتى عندما يبدو حجم العينة الكلِّي كبيرًا ظاهريًا (الفرضية ٣،٣). أمّا نسبة حجم العينة إلى حجم النموذج (SQP) فتوفِّر منظورًا متينًا لربط سعة النموذج بكفاية البيانات؛ إذ وجدنا أننا نحتاج تقريبًا إلى أربعين سلسلة بيانات تدريبية لكل معامل في نماذج التعلّم العميق، مقابل نحو عشرة سلاسل بيانات لكل معامل في نموذج iTransformer، مع تأثير واضح لاختيار أسلوب التحقّق عبر عائلات معمارية مختلفة (الفرضيات (٣،٤)-(٥)). إضافةً إلى ذلك، تقترح الرسالة استراتيجية تعزيز بيانات حسّاسة للموسمية تعتمد على شهر السنة (MoY) لزيادة الحجم الفعّال للعينات بطريقة منظَّمة. في المجمل، تُدمج هذه النتائج في إطار موحَّد يجمع بين منظور صندوق البيانات ومنظور الصندوق الأسود، ويُوضِّح ارتباطهما باختبار الصندوق الأبيض ضمن منظور «الصناديق الثلاثة»، بما يدعم الفرضية الإطارية (الفرضية ٦) ويقدِّم إرشادات عملية حول اختبار مشكلات البيانات، واختيار تقنيات التحقّق المناسبة، وتفسير الأداء تحت تكوينات زمنية مختلفة. وبذلك تسهم الرسالة في نقل اختبار نظم التعلّم الآلي إلى ممارسة منهجية واعية بالبيانات وبالتقنيات التقييمية، وقابلة لإعادة الإنتاج، تناسب البيئات عالية المخاطر والغنية بالبيانات وتقدّم رؤى مستقبلية لدعم وتحسين موثوقية أنظمة التعلّم الآلي.

English Abstract

Machine learning systems (MLS) are now embedded in high-stakes domains such as energy, healthcare, transportation, and finance, yet their testing remains fragmented and largely model-centric. Conventional white-box and black-box methods treat data as mere input rather than an explicit test target, even though MLS behaviour is fundamentally governed by the training and validation data. This dissertation proposes a unified MLS Testing Framework that makes data an explicit object of testing through a novel construct, data-box testing, with a primary focus on data-box and black-box perspectives for time-series forecasting systems. Data-box testing complements existing paradigms by treating data quality and sufficiency as testable properties. Four dimensions (balance, noise, adequacy, and sufficiency) are studied alongside validation- and framework-level aspects, and formalised as six interrelated hypotheses (H2–H6). The methodology is instantiated on thirteen real-world time-series datasets and four representative model families (iTransformer, DLinear, LSTM, GRU). Models are evaluated using R², RelMSE, and RelMAE over ten random seeds with confidence intervals, and two diagnostic ratios—Sequences per Parameter (SQP) and Samples per Parameter (SSP)—are introduced to capture the joint effects of sample size, model complexity, and temporal coverage. Empirical results show that apparent class or seasonal imbalance is not the only factor to predict balance effectiveness: forecast accuracy is primarily driven by temporal support and regime-specific sample sufficiency. Datasets with contiguous seasonal coverage can behave effectively under unequal class proportions, whereas incomplete coverage induces imbalance effects despite surface symmetry. Noise experiments demonstrate that longer input windows and horizons systematically amplify noise, producing consistent, model-independent “noise symptoms.” Data adequacy depends less on total volume and more on the recurrence density of informative temporal patterns. A unified sufficiency principle emerges: generalisation follows the sample size to model size ratio rather than architectural type. Recurrent and linear models exhibit sufficiency plateaus around 40 training sequences per parameter, while iTransformer models peak around SQP ratios of 0.1–0.2, with departures from these regimes yielding unstable R² and inconsistent generalisation. From a black-box perspective, this ratio becomes a practical rule for validation design: high-capacity models operating in low-SSP/SQP regimes require stricter, temporally consistent validation (70/10/20 splits and TSCV) to expose overfitting, whereas smaller models in data-rich regimes can be reliably evaluated with simpler 80/20 temporal splits. This dissertation establishes data-box testing as a formal complement to traditional white- and black-box testing and provides a principled basis for diagnosing data quality issues, selecting temporal validation strategies, and interpreting model performance in dynamic, high-risk, data-rich environments. It also outlines concrete directions for future data-centric testing research.

Item Type:	Thesis (PhD)
Subjects:	Computer Systems Engineering Research Research > Information Technology
Department:	College of Computing and Mathematics > Information and Computer Science
Thesis Advisor:	Moataz Ahmed,
Thesis Committee Members:	Aiman El-maleh, Mohammad Alshayeb, Mahmood Niazi, Fakhri Alam Khan,
Depositing User:	SALMA ALBELALI
Date Deposited:	13 May 2026 11:28
Last Modified:	30 Jun 2026 09:20
URI:	https://eprints.kfupm.edu.sa/id/eprint/144280