Efficient Text Representation for Arabic NLP

Efficient Text Representation for Arabic NLP. Masters thesis, King Fahd University of Petroleum and Minerals.

This is the latest version of this item.

[img] PDF
MS_Thesis_Dorieh_Alomari.pdf
Restricted to Repository staff only until 13 July 2026.

Download (14MB)

Arabic Abstract

اللغة العربية لغة غنية لغويًا وعريقة تاريخيًا، ويتميز نظام كتابتها بثمانية وعشرين حرفًا غالبًا ما تتشارك في نفس الشكل الأساسي (الرسم)، وتُميز بينها النقاط. يعزز هذا التصميم من القدرة التعبيرية، لكنه في الوقت ذاته يُدخل نوعًا من التكرار البصري. تاريخيًا، كانت المخطوطات العربية الأولى تُكتب دون استخدام النقاط، ومع ذلك كان الناس قادرين على فهمها من السياق، مما يشير إلى أن النقاط قد لا تكون ضرورية للفهم. من منظور لغوي، يرتبط هذا الأمر بنظريات الرمزية الصوتية، التي تفترض وجود ارتباطات غير اعتباطية بين الأشكال البصرية والمعاني اللغوية. مع ذلك، لا يزال من غير الواضح ما إذا كان نجاح تبسيط النصوص العربية يعود إلى التقارب البصري بين الحروف، أم أن النماذج الحاسوبية قادرة على تحقيق أداء جيد حتى مع تجميعات عشوائية بالكامل للحروف. إن هدفنا الأول هو دراسة ما إذا كانت العلاقات البنيوية بين الحروف ضرورية لتحقيق أداء جيد في معالجة اللغة الطبيعية، أم أن النماذج تكتفي بالتكيف مع الأنماط الإحصائية. لتحقيق ذلك، أنشأنا ألفي طريقة تحويل عشوائية للحروف لاستراتيجتي التقسيم على مستوى الكلمة والحرف، مع الالتزام بتسعة عشر شكلاً أساسياً (رسمًا) وفقًا للبنية التقليدية للنصوص غير المنقوطة. قمنا باختيار أربع طرق تحويل تمثل أعلى وأدنى مستويات الإنتروبيا على مستوى الكلمات والحروف. وقد جرى تقييم هذه الطرق عبر عدة مهام في مجال معالجة اللغة الطبيعية وجرت مقارنتها بالنص الأصلي المنقوط وغير المنقوط. أما هدفنا الثاني فهو دفع حدود تبسيط النصوص بشكل أكبر عبر تقليل عدد الحروف إلى أقل من مجموعة الحروف غير المنقوطة التقليدية. باستخدام إنتروبيا entropy الكلمات كمؤشر توجيهي، قمنا ببناء طرق دمج قائمة على مبدأ الإنتروبيا، حيث دُمجت الحروف بشكل أكثر كثافة، مما قلص الأبجدية الفعالة إلى سبعة حروف فقط في بعض الحالات. ومن اللافت أن النماذج حافظت على أداء قوي عبر جميع المهام المقيمة، حتى مع هذا التقليص الشديد، مما يشير إلى أن الفروقات الدقيقة بين الحروف ليست ضرورية لفهم النصوص. بصورة عامة، تظهر نتائجنا أن معالجة اللغة العربية لا تعتمد بالضرورة على الحفاظ على أشكال الحروف التقليدية أو فروقاتها الدقيقة. إذ تتيح كل من طرق التبديل العشوائية وطرق الدمج القائمة على الإنتروبيا للنماذج تحقيق أداء تنافسي مع خفض كبير في التكاليف الحسابية، وحجم المفردات، ومعدلات الكلمات الخارجة عن القاموس. وتقدم هذه النتائج دليلاً قوياً على أن العلاقة بين شكل الحرف ووظيفته اللغوية في العربية هي إلى حد بعيد علاقة اعتباطية من منظور معالجة اللغة الطبيعية، مما يفتح المجال أمام أساليب أكثر كفاءة وخفة وقابلية للتوسع في معالجة النصوص العربية.

English Abstract

Arabic is a linguistically rich and historically significant language, whose writing system is characterized by 28 letters that often share the same base shape (rasm), distinguished only by the placement of dots. Historically, early Arabic manuscripts were written without dots, yet people could still understand them from context, suggesting that dots may not be essential for understanding. From a linguistic perspective, this connects to theories of sound symbolism, which propose non-arbitrary links between visual forms and linguistic meanings. It remains an open question whether the success of simplified Arabic texts stems from the shared visual proximity among characters, or whether models can perform equally well with entirely random character groupings. Our first objective is to examine whether structural relationships between characters are necessary for natural language processing (NLP) performance or if models simply adapt to statistical patterns. To this end, we generated 2,000 random character mappings for word and character tokenizations, constrained to 19 distinct base forms (rasm) following the traditional undotted structure. We selected four mappings based on lowest and highest word and character entropy. These mappings were evaluated across several NLP tasks and compared to standard dotted and dotless representations. Our second objective is to push script simplification even further by reducing the number of distinct characters beyond the original dotless set. Using word entropy as a guiding metric, we constructed entropy-driven compact mappings that merged characters more aggressively, compressing the effective alphabet to as few as seven characters. Remarkably, even with such extreme reductions, models maintained strong performance across all evaluated NLP tasks, suggesting that detailed character distinctions are not crucial for language understanding. Overall, our results demonstrate that Arabic NLP does not inherently depend on preserving traditional character shapes or distinctions. Both random remappings and highly compact entropy-based mappings allow models to perform competitively while dramatically reducing computational costs, vocabulary size, and Out-of-Vocabulary (OOV) rates. These findings provide strong evidence that the relationship between character form and linguistic function in Arabic is largely arbitrary from an NLP perspective, opening the door to more efficient, lightweight, and scalable approaches for Arabic text processing.

Item Type: Thesis (Masters)
Subjects: Computer
Department: College of Computing and Mathematics > Information and Computer Science
Committee Advisor: Ahmad, Irfan
Committee Members: Alshayeb, Mohammad and Mahmood, Sajjad
Depositing User: DORIEH ALOMARI (g202213300)
Date Deposited: 22 Jul 2025 07:05
Last Modified: 22 Jul 2025 07:05
URI: http://eprints.kfupm.edu.sa/id/eprint/143614

Available Versions of this Item

  • Efficient Text Representation for Arabic NLP. (deposited 22 Jul 2025 07:05) [Currently Displayed]