DOTLESS ARABIC TEXT FOR NATURAL LANGUAGE PROCESSING. Masters thesis, King Fahd University of Petroleum and Minerals.
PDF
Master_Thesis__After_Defense_final.pdf Restricted to Repository staff only until 9 June 2025. Download (8MB) |
Arabic Abstract
تعدّ اللغة العربية من اللغات السامية العريقة، يتحدثها أصالة، حوالي 400 مليون فرد تقريبا، وتمتاز بنمط فريد مختلف في طريقة كتابتها عن كثير من اللغات الأخرى، حيث يحتوي نمط كتابتها على نقاط وحركات وتشكيل. تتركز دراستنا في هذه الأطروحة حول نقاط الأحرف في اللغة العربية. هذه النقاط هي علامات خاصة تضاف إلى أشكال الحروف لتمييز المتشابه منها، وذلك لأن كثيرا من حروف العربية تتشارك مع بعضها في أساس أشكالها، ولكنها تختلف في موضع وعدد النقاط المتصلة بها. كانت النقاط تستخدم بادئ ذي بدء عندما يصعب تمييز معاني الكلمات من سياقاتها بالنظر لما حولها من الكلمات، ثم ـ فيما بعد ـ أصبح استخدام هذه النقاط شائعا منَظّمَا متّبِعا لقواعد مُحكمة، وذلك لتسهيل الكتابة والقراءة خاصة لمتعلمي اللغة العربية من غير أهلها الأصيلين. ومع ذلك، فإن النص العربي بدون نقاط يسير القراءة والفهم من قبل متكلمي اللغة العربية الأصيلين. بل في الآونة الأخيرة، شاعت وسائل مبتدعة في عدد من شبكات التواصل الاجتماعية تتضمن كتابة اللغة العربية بدون نقاط، وذلك ـ في الغالب ـ لتفادي خوارزميات تصفية المحتوى. تمثل هذه الوسائل تحدياً فريدا لتقنيات معالجة اللغة الطبيعية الحالية حيث أنه لم يتم تدريبها على هذا النوع من النصوص! مثّل هذا حافزا ودافعا لنا لإجراء دراسة تحليلة عميقة لتحليل ومقارنة النص العربي المنقوط وغير المنقوط، خاصة في ضوء التطور غير المسبوق الذي حدث مؤخرا في خوارزميات تعلم السياق النصي مثل خوارزمية الانتباه وخوارزميات المتحولات. تطمح هذه الأطروحة إلى تقديم تحليل مكثف، شامل، وعميق يقارن النص العربي غير المنقوط مع النص العربي المنقوط من عدة اتجاهات لغوية بحتة، كما تقدم هذه الدراسة بحثا تحليليا لعديد من مهام معالجة اللغات الطبيعية شاملا النص المنقوط وغير المنقوط. من أمثله هذه المهام: نمذجة اللغة وتصنيف النصوص وتصنيف الكلمات ضمن الجمل، وتوليد النصوص. من النتائج المثيرة التي توصلت لها هذه الأطروحة، أن النص غير المنقوط، من خلال التجارب التي تم إجراؤها، أظهر قدرة مبهرة في تقليل حجم المفردات وحجم النماذج المدربة، والوقت المستغرق لتدريب هذه النماذج، مع الحفاظ على فارق يسير في الأداء والنتائج مقارنة بالنص المنقوط. بل إنه في بعض الحالات، كان من المفاجئ ملاحظة أن النص غير المنقوط في بعض تفاصيل هذه المهام أظهر تفوقا على نظيره المنقوط.
English Abstract
Arabic, spoken by approximately 400 million native speakers, is derived from Semitic languages with a cursive script that includes dots and diacritics. These dots serve as distinguishing marks added to the base shapes of letters to discern between similar-looking characters, as multiple Arabic letters share identical base shapes. Initially employed only when contextual cues failed to resolve ambiguity, the use of dots has since become standardized, particularly for non-native speakers navigating contextual ambiguities. Nevertheless, dotless Arabic is still readable and understandable by native speakers. Recently, an emerging trend among several social media networks involves writing Arabic without dots, potentially to bypass content filtering algorithms. This trend presents a challenge for current \gls{nlp} techniques, prompting an intriguing analysis and comparison between dotted and dotless Arabic text, especially in light of recent advancements in context-learning algorithms like attention. This thesis embarks on an extensive exploration, conducting a comprehensive analysis that compares dotless and dotted Arabic text on Arabic \gls{nlp} tasks. Furthermore, it encompasses an in-depth performance comparison across various upstream and downstream tasks, including language modeling, text classification, sequence labeling, and machine translation. Interestingly, throughout these experiments, dotless text demonstrated an impressive ability to reduce vocabulary size, model sizes, and, in certain instances, the per-epoch training time.
Item Type: | Thesis (Masters) |
---|---|
Subjects: | Computer |
Department: | College of Computing and Mathematics > Information and Computer Science |
Committee Advisor: | Ahmad, Irfan |
Committee Members: | Alshayeb, Mohammad and Al-Khatib, Wasfi G. |
Depositing User: | MAGED AL SHAIBANI (g201381710) |
Date Deposited: | 09 Jun 2024 10:48 |
Last Modified: | 09 Jun 2024 10:48 |
URI: | http://eprints.kfupm.edu.sa/id/eprint/142956 |