Machine Learning Approaches for Arabic Dialect Identification using Monodialectal Language Models

Machine Learning Approaches for Arabic Dialect Identification using Monodialectal Language Models. Masters thesis, King Fahd University of Petroleum and Minerals.

[img] PDF
Reem_AlYami_Master_Thesis_2022_Signed.pdf - Submitted Version
Restricted to Repository staff only until 9 January 2024.

Download (6MB)

Arabic Abstract

أصبحت تحديات الأداء التي تحتاج إلى معالجة باللغة العربية أكثر إلحاحًا مع التقدم المستمر في مهام معالجة اللغة. تنتمي اللغة العربية إلى مجموعة اللغات ثنائية اللغة ، حيث يتم التحدث بلهجات مختلفة بين المتحدثين. يعد التعرف على اللهجات العربية أمرًا ضروريًا لتوفير تقنيات وخدمات أفضل. على الرغم من أن العديد من الجهود الرائدة عملت على جمع البيانات وقليل منها على توسيم البيانات ومع ذلك ، تظل البيانات المتاحة ضئيلة وتعاني من مشكلات مثل تجميع لبيانات اللهجة في مجال معين مما يحد من تنوع النص. بالإضافة إلى ذلك ، يشكل مستوى التعرف على اللهجة العربية تحديًا عند تصنيف اللهجة. وبالتالي ، تهدف هذه الأطروحة إلى التعرف على اللهجات العربية من خلال توفير تمثيل سياقي لسمات اللهجات العربية واستخدام نماذج تعليمية مختلفة لتصنيف اللهجات. تطور هذه الدراسة آلية لجمع البيانات غير معتمد على اللغة أو المهمة في جمع اللهجات العربية. تجمع البيانات على مستوى الدولة لتوفير عينة متنوعة لكل لهجة لتطوير نماذج لغة سياقية خاصة باللهجة (AraRoBERTa) لتصنيف اللهجات العربية. بالإضافة إلى ذلك، تم اقتراح طريقة تعرف آلية للهجات العربية لتحديد اللهجات. حيث يتم تقييم نموذجين للتعلم: التعلم الخاضع للإشراف الضعيف (WSL) والتعلم شبه الخاضع للإشراف (SSL) لتحديد اللهجات العربية. يعمل WSL على إعدادين: التعلم من البيانات الموسمة آلياّ (WSL-I) والتعلم من البيانات الموسمة آلياّ بعد تقليل العينات الغير مفيدة (WSL-II). بالإضافة إلى ذلك، يتم استخدام SSL للتعلم من البيانات المتاحة لتحسين أداء النماذج في إعدادين: التعلم من مجموعة من بيانات اللهجات الغير موسمة (SSL-I) والتعلم من مجموعة من بيانات اللهجات ذات العلامات التقريبة (SSL-). نتيجة لذلك، تم إنشاء مصادر عربية مختلفة لسبع لهجات عربية: السعودية والكويتية والعمانية واللبنانية والأردنية والمصرية والجزائرية. تُستخدم هذه الموارد لتطوير أشكال مختلفة من AraRoBERTa. تظهر النتائج أن تطوير نموذج اللغة السياقي AraRoBERTa الخاصة باللهجة يؤدي إلى نتائج تنافسية. وصلت أفضل نسخة من AraRoBERTa-EGY إلى 93 ٪، وأدت بشكل أفضل من نماذج ذكاء الآلة التقليدية ٪1 إلى 6 ٪. كذلك التعلم من البيانات الموسمة آلياّ يعتبر طريقة واعدة لتدريب النماذج على بيانات أكبر. أخيرًا، أسفرت النماذج شبه الخاضعة للإشراف عن أفضل أداء في ثلاث لهجات، خاصة بالنسبة إلى أشكال AraRoBERTa المدربة على أحجام بيانات أصغر. تم الوصول إلى تحسن من 3٪ إلى ٪8 أكثر من الإشراف بالنسبة لـ AraRoBERTa-OM و AraRoBERTa-LB.

English Abstract

The rapid advancement of applications built on Arabic language processing tasks requires addressing performance challenges that are specific to the Arabic language. Arabic belongs to the group of diglossic languages, where different variations of the language are spoken among speakers. Identifying Arabic dialects is essential to provide better technologies and services. Although many pioneering efforts have focused on collecting and annotating the data, the openly available data remains lacking in quantity and quality. For example, Arabic datasets suffer from issues such as investigating the dialect in a specific domain which limits the text diversity. Additionally, the Arabic dialect granularity level poses a challenge when investigating a specific dialect. This thesis aims to identify Arabic dialects by providing contextual feature representation for Arabic dialects and using different learning paradigms to classify dialects. This work develops a data-collection pipeline that is language- and task-agnostic for collecting Arabic dialects. This method collects data at the country level to provide a diverse sample for each dialect. This data is used for developing dialect-specific contextual language models (AraRoBERTa) to classify Arabic dialects. Additionally, an automatic annotation method for Arabic dialects is proposed to identify dialects. Also, two learning paradigms are applied, Weak-Supervised Learning (WSL) and Semi-supervised Learning (SSL), to identify Arabic dialects and thoroughly evaluate them. WSL has two settings: learning from automatically labeled data (WSL-I) and learning from weakly labeled data after reducing the noise (WSL-II). Additionally, SSL is used to learn from the available data to enhance the performance of the models in two settings: learning from a group of unlabeled dialects (SSL-I) and learning from a group of pseudo-labeled dialects (SSL-II). Different Arabic resources are built for seven Arabic country-level dialects: Saudi Arabia, Kuwait, Oman, Lebanon, Jordan, Egypt, and Algeria. These resources are used to develop variations of the AraRoBERTa language models. The results show that developing dialect-specific AraRoBERTa yields competitive results. The best variation AraRoBERTa-EG reached 93% F-1, improving over supervised machine learning baselines and other contextual models 1% to 6%. Weak-supervision for Arabic dialects is not ideal. However, it is a promising way to train models on larger data. Finally, the semi-supervised approaches yielded the best performance in three dialects, especially for AraRoBERTa variations trained on smaller data sizes. An improvement of around 8% and 3% over supervised are reached for AraRoBERTa-OM and AraRoBERTa-LB, respectively.

Item Type: Thesis (Masters)
Subjects: Computer
Research
Research > Information Technology
Department: College of Computing and Mathematics > Information and Computer Science
Committee Advisor: AlZaidy, Rabeah
Committee Members: Boudellioua, Imane and Ahmed, Moataz
Depositing User: REEM ALYAMI (g201904970)
Date Deposited: 09 Jan 2023 08:23
Last Modified: 09 Jan 2023 08:23
URI: http://eprints.kfupm.edu.sa/id/eprint/142308