AUTOMATIC ARABIC CHECK PROCESSING USING DEEP LEARNING TECHNIQUES

AUTOMATIC ARABIC CHECK PROCESSING USING DEEP LEARNING TECHNIQUES. Masters thesis, King Fahd University of Petroleum and Minerals.

[img] PDF
Suzan_Elmajali_Thesis.pdf - Accepted Version
Restricted to Repository staff only until 30 April 2026.

Download (3MB)

Arabic Abstract

على الرغم من التحول المتزايد نحو المعاملات الإلكترونية، لا يزال البحث في مجال معالجة الشيكات العربية تلقائيًا محدودًا بسبب ندرة مجموعات البيانات والموارد المخصصة. تُعد عملية التعرف على المبالغ الرقمية والنصية في الشيكات العربية أكثر تحديًا من الأخرى، مما يزيد من تعقيد عملية الاستخراج والتعرف بدقة. في هذه الأطروحة، نقدم (OCR) مهام التعرف الضوئي على الحروف نظامًا آليًا متكاملًا لاستخراج، والتعرف، وترجمة، والتحقق من المبالغ الرقمية والنصية في الشيكات المصرفية العربية. تم تطوير النظام مما يضمن قابليته للتطبيق في سيناريوهات الحياة الواقعية. CENPARMI، وتقييمه باستخدام صور شيكات حقيقية من مجموعة بيانات معدل، محققًا دقة استخراج بلغت ٪ 99 للمبالغ الرقمية و تقريبا ٪ 88 YOLO لاستخراج المبالغ الرقمية والنصية، تم استخدام نموذج بنسبة ٪ 75 . تم تنفيذ مرحلة التعرف على المبالغ الرقمية باستخدام بنية تعلم عميق (IoU) للمبالغ النصية تحت عتبة تقاطع الاتحاد مصممة لفك تشفير الأرقام المكتوبة يدويًا. حقق النموذج المقترح دقة تعرف على مستوى CNN-BiLSTM-CTC، تعتمد على شبكة encoder-decoder الرقم بلغت ٪ 96 ودقة تعرف إجمالية على المبالغ الرقمية بلغت ٪ 85 . علاوة على ذلك، تم تطوير وتقييم نموذج قائم (LVLM) للتحقق من أداء نهج التعرف على المبالغ الرقمية. بالإضافة إلى ذلك، أُجريت دراسة تجريبية لتقييم إمكانيات نموذج CNN-BiLSTM-CTC، في التعرف على المبالغ الرقمية. بالنسبة للتعرف على المبالغ النصية، تم استخدام نفس بنية ChatGPT على مع استكشاف تقنيات ترميز مختلفة. حقق هذا النهج دقة تعرف على مستوى الكلمة بلغت ٪ 88 . كما أُجريت دراسة تجريبية لتقييم التعرف على المبالغ النصية. لترجمة المبالغ النصية المعترف بها إلى الشكل الرقمي، ChatGPT القائم على LVLM قدرة نموذج تم تقديم خوارزمية تعتمد على القواعد، تتضمن قاموسًا متخصصًا وتستخدم استراتيجية أقل مسافة تحرير لتعزيز المتانة. كما تم اقتراح إجراء تحسين جديد لتحسين القيم المتوقعة لكل من المبالغ الرقمية والنصية من خلال استخدام المبلغ الرقمي المتوقع لتحسين التنبؤ بالنصي والعكس صحيح. أدى هذا التحسين الثنائي الاتجاه إلى تحسين كبير في أداء التعرف، مما شكل خطوة حاسمة قبل مرحلة التحقق النهائية، التي تتضمن التحقق المتبادل بين المبلغ النصي المترجم والمبلغ الرقمي المعترف به. حقق النظام في النهاية دقة تحقق 9. تؤكد هذه النتائج فعالية النظام وتُظهر مزاياه مقارنةً بنهج التعلم الآلي التقليدية في التعامل مع تعقيدات ٪ . نهائية للشيكات بلغت 79 معالجة الشيكات.

English Abstract

Despite the increasing shift toward online transactions, research on automatic Arabic check processing remains limited due to the scarcity of dedicated datasets and resources. The recognition of courtesy and legal amounts on Arabic checks presents greater challenges than other OCR tasks, significantly complicating accurate extraction and recognition. In this thesis, we present a complete automated pipeline for the extraction, recognition, translation, and verification of courtesy and legal amounts from Arabic bank checks. The system was developed and evaluated using real-world check images from the CENPARMI dataset, ensuring its applicability to practical, real-life scenarios. For the extraction of courtesy and legal amounts, a fine-tuned YOLO model was employed, achieving extraction accuracies of 99% for courtesy amounts and 88.7% for legal amounts under a 75% IoU threshold. The courtesy amount recognition phase was implemented using a deep learning architecture based on a CNN-BiLSTM-CTC pipeline, designed to decode handwritten numerals. The proposed model achieved a digit-level recognition accuracy of 96.1% and an overall courtesy amount recognition accuracy of 85%. Furthermore, an encoder-decoder model was developed and evaluated on the same dataset to further validate the performance of the courtesy amount recognition approach. Additionally, a pilot study was conducted to assess the potential of a ChatGPT-based LVLM for courtesy amount recognition. For legal amount recognition, a CNN-BiLSTM-CTC pipeline was developed, with various tokenization techniques explored. This approach achieved a word-level recognition accuracy of 88%. Additionally, a pilot study was conducted to evaluate the capability of a ChatGPT based LVLM in recognizing legal amounts. To translate the recognized legal amounts into numerical form, a rule-based algorithm was introduced, incorporating a specialized dictionary and leveraging a minimum edit distance strategy to enhance robustness. A novel enhancement procedure was also proposed to refine the predicted values of both legal and courtesy amounts by using the predicted courtesy amount to enhance the legal prediction and vice versa. This bidirectional refinement significantly improved recognition performance, serving as a crucial step before the final verification phase, which involves cross-validating the translated legal amount with the recognized courtesy amount. The system ultimately achieved a final check verification accuracy of 78.5%. These results validate the system’s effectiveness and demonstrate its advantages over traditional machine learning approaches in handling the complexities of Arabic check processing.

Item Type: Thesis (Masters)
Subjects: Computer
Department: College of Computing and Mathematics > Information and Computer Science
Committee Advisor: Ahmad, Irfan
Committee Members: Ahmed, Moataz and Khan, Fakhri
Depositing User: SUZAN ELMAJALI (g202211280)
Date Deposited: 05 Nov 2025 08:31
Last Modified: 05 Nov 2025 08:31
URI: http://eprints.kfupm.edu.sa/id/eprint/143737