MORPHOLOGY-AWARE LANGUAGE UNDERSTANDING FOR ARABIC

MORPHOLOGY-AWARE LANGUAGE UNDERSTANDING FOR ARABIC. PhD thesis, King Fahd University of Petroleum and Minerals.

[img] PDF
PhD_Dissertation_FULL_v2.pdf
Restricted to Repository staff only until 4 November 2025.

Download (3MB)

Arabic Abstract

شهدت التطورات الأخيرة في معالجة اللغات الطبيعية (NLP) اهتمامًا كبيرًا. عادةً ما يتم معالجة تحديات NLP من خلال تدريب نموذج لغوي كبير بدون إشراف وصقله لمهام مختلفة باستخدام نماذج خاضعة للإشراف. من خلال تصفح الورقات العلمية المنشورة سابقاً، ندرك أن هناك العديد من النماذج المدربة مسبقًا سواء كانت أحادية اللغة أو متعددة اللغات. على الرغم من وجود نماذج مدربة مسبقًا للغة العربية، فإنها غالبًا ما تعكس طرق تدريب اللغة الإنجليزية وتتجاهل الجوانب الصرفية الفريدة للغة العربية. تهدف هذه الرسالة إلى تعزيز فهم اللغة العربية من خلال تكييف النماذج للخصائص الصرفية للغة العربية. نتناول مراحل مختلفة من NLP من التحليل الصرفي إلى مهام معقدة مثل توليد النصوص المعقدة. نستكشف أيضًا كيفية فهم الصرف من قبل هذه النماذج. علاوة على ذلك، نحاول الاستفادة من النماذج المدربة على لغات ذات موارد عالية، مثل اللغة الإنجليزية، وتلك ذات الغنية صرفياً، مثل الروسية، لدعم المهام العربية ذات الموارد المحدودة. تظهر نتائجنا أهمية التحليل الصرفي في معالجة اللغات الطبيعية، مما يسلط الضوء على التطور من التقسيم باستخدام المسافات إلى خوارزميات الكلمات المجزوءة مثل تقسيم الأوزاج الثنائي (BPE). في هذه المناقشة، نقوم بتسليط الضوء على مشاكل BPE في التحليل الصرفي، وخاصة في لغة غنية صرفياً مثل العربية، من خلال تقديم MaT-BPE، مما يظهر تقسيم وأداء يتفوق في 10 من أصل 12 مجموعة بيانات في مجال NLP. في مجال آخر، نستكشف توليد الشعر الشرطي "أشعار"، وهو نظامًا متطورًا يستفيد من مجموعات بيانات واسعة، لا سيما مجموعة بيانات الأشعار، ويعتمد على التقسيم على مستوى الأحرف. على الرغم من كفاءة النموذج، لا تزال التحديات قائمة في توليد الشعر المقسم على مستوى الأحرف، مما يحفز العمل المستقبلي على تنقيح هندسة المحولات التوليدية المدربة مسبقًا (GPT) ومعالجة توليد الكلمات المعرضة للخطأ. تكشف دراستنا في مجال التعلم دون أمثلة مباشرة بين اللغات عن رؤى حول التفاعل بين عوامل اللغة، وتدعو للتدريب بلغات أخرى لتحسين الأداء المهام المختلفة. تظهر نتائجنا أننا يمكن أن نحقق أداءً قابلاً للمقارنة من خلال تدريب اللغات الغنية صرفياً مثل الروسية ثم التقييم على اللغة العربية. يحقق مهمة الاستدلال اللغوي الطبيعي نتيجة 64٪، وهي نفسها كما لو تم التدريب على اللغة العربية.

English Abstract

Recent advancements in natural language processing (NLP) have gained significant attention. Commonly, NLP challenges are addressed by training a large language model without supervision and refining it for various tasks using supervised methods. In the literature, there are many pre-trained models whether monolingual or multilingual. Although there are pre-trained models for Arabic, they often mirror English training methods and overlook the unique morphological aspects of the Arabic language. This thesis aims to enhance Arabic language comprehension by tailoring the pipeline to its specific characteristics. We address various stages of the NLP process, from tokenization to intricate tasks like text generation. We also explore the understanding of morphology by these models. Furthermore, we try to leverage insights from languages with high resources, like English, and those with rich morphology, like Russian, to support Arabic tasks with limited resources. Our findings show the significance of tokenization in natural language processing is underscored, highlighting the evolution from white space tokenization to sub-word algorithms like Byte-pair Encoding (BPE). The limitations of standard BPE in capturing morphology, particularly in languages such as Arabic, are addressed by introducing MaT-BPE, demonstrating superior segmentation and performance in 10 out of 12 NLP datasets. Simultaneously, exploring conditional poetry generation introduces "Ashaar," a sophisticated system leveraging extensive datasets, notably the Ashaar dataset, and a character-based model. Despite the model’s competence, challenges persist in character-driven poetry synthesis, motivating future work to refine the Generative Pre-Trained Transformer (GPT) architecture and address error-prone word generation. The investigation into cross-lingual zero-shot transfer reveals insights into the interplay of language factors, advocating for training in other languages to enhance performance in Arabic tasks. Our results show that we can achieve comparable performance by fine-tuning morphologically rich languages like Russian and then evaluating Arabic in a zero-shot fashion. Notably, the natural language inference task achieves a result of 64.0 \%, which is the same as fine-tuning in Arabic.

Item Type: Thesis (PhD)
Subjects: Computer
Department: College of Computing and Mathematics > Information and Computer Science
Committee Advisor: Ahmed, Moataz
Committee Members: El-Maleh, Aiman and El-Bassuny, Tareq and Azzedin, Farag and Mahmood, Sajjad
Depositing User: ZAID AL-YAFEAI (g201080740)
Date Deposited: 04 Nov 2024 10:01
Last Modified: 04 Nov 2024 10:01
URI: http://eprints.kfupm.edu.sa/id/eprint/143089