Towards Reliable Detection of Arabic Text Generated by Large Language Models. Masters thesis, King Fahd University of Petroleum and Minerals.
|
PDF
KFUPM_Thesis(Alhanof).pdf Restricted to Repository staff only until 23 June 2027. Download (6MB) |
Arabic Abstract
تتناول هذه الرسالة كشف النص العربي المولَّد بواسطة النماذج اللغوية الكبيرة على مستوى الجملة، كما تبحث في كيفية جعل هذا الكشف أكثر كفاءة من الناحية الحاسوبية. تنطلق الدراسة من التوسع المتزايد في استخدام النماذج اللغوية العربية في المساعدة على الكتابة والتعليم وإنتاج المحتوى الرقمي، وما يترتب على ذلك من حاجة إلى وسائل موثوقة للتمييز بين النص البشري والنص المولَّد آليًا. وتعالج الرسالة هذه المشكلة من خلال دراستين متكاملتين. أولًا، تقدم تقييمًا مقارنًا لثلاث عائلات من الكواشف في مهمة الكشف العربي على مستوى الجملة، وهي \LR{Sent-RoBERTa} و\LR{Seq-RoBERTa} و\LR{SeqXGPT}. وقد أُجريت التجارب على معيار موحّد بُني من ملخصات علمية عربية مكتوبة بشريًا، ومن نصوص متابعة مولَّدة باستخدام نماذج \LR{GPT-3.5} و\LR{ALLAM} و\LR{JAIS} و\LR{LLaMA}، بالإضافة إلى إعداد يجمع أكثر من مولِّد واحد. وأظهرت النتائج أن النماذج المعتمدة على السياق والتسلسل تتفوق بوضوح على التصنيف القائم على الجملة فقط، حيث حقق \LR{Seq-RoBERTa} أفضل أداء عام، بينما قدم \LR{SeqXGPT} بديلًا تنافسيًا وقابلًا للتفسير يعتمد على إشارات احتمالية مستخرجة من نماذج مصدرية. ثانيًا، تبحث الرسالة في نسخة مطوَّرة من \LR{SeqXGPT} تعتمد على نماذج \LR{Transformer} خفيفة الوزن لاستبدال استخراج الخصائص المكلف القائم على النماذج المصدرية أثناء الاستدلال. وقد حافظ الإطار المقترح على جزء كبير من قدرة الكشف الأصلية مع تحقيق مكاسب واضحة في الكفاءة، من حيث سرعة الاستدلال وتقليل عدد المعاملات. وتُظهر الرسالة في المجمل أن كشف النص العربي المولَّد آليًا ممكن على مستوى الجملة، وأن النمذجة السياقية مهمة بصورة خاصة للنص العربي عالي الطلاقة، وأن الكشف المعتمد على النماذج المصدرية يمكن جعله أكثر عملية من خلال التقريب المعتمد على نماذج الطلاب.
English Abstract
This thesis investigates sentence-level detection of Arabic large language model (LLM)-generated text and explores how such detection can be made more computationally efficient. The work is motivated by the growing use of Arabic LLMs in writing assistance, education, and digital content creation, which increases the need for reliable methods to distinguish human-written from machine-generated text. The thesis addresses this problem through two complementary studies. First, it presents a comparative evaluation of three detector families for Arabic sentence-level detection: Sent-RoBERTa, Seq-RoBERTa, and SeqXGPT. The experiments are conducted on a unified benchmark built from human-written Arabic scientific abstracts and continuation-style outputs generated by GPT-3.5, ALLAM, JAIS, and LLaMA, as well as a mixed-generator setting. The results show that sequence-aware detectors are consistently stronger than sentence-only classification, with Seq-RoBERTa achieving the best overall performance and SeqXGPT providing a competitive and interpretable source-model-based alternative. Second, the thesis investigates a student-enhanced version of SeqXGPT, in which lightweight Transformer-based student models replace expensive source-model feature extraction during inference. The proposed framework preserves much of the original detection capability while achieving substantial efficiency gains, including much faster inference and a large reduction in parameter count. Overall, the thesis shows that Arabic AI-text detection is feasible at the sentence level, that contextual modeling is especially important for fluent Arabic text, and that source-model-based detection can be made more practical through student-based approximation.
| Item Type: | Thesis (Masters) |
|---|---|
| Subjects: | Computer |
| Department: | College of Computing and Mathematics > Information and Computer Science |
| Thesis Advisor: |
Aiman El-maleh,
|
| Thesis Committee Members: |
Moataz Ahmed,
Irfan Ahmad,
|
| Depositing User: | ALHANOOF ALHUNIEF |
| Date Deposited: | 24 Jun 2026 08:23 |
| Last Modified: | 24 Jun 2026 08:23 |
| URI: | https://eprints.kfupm.edu.sa/id/eprint/144620 |