Classifying Arabic Text Based on Temporal Periods

Classifying Arabic Text Based on Temporal Periods. Masters thesis, King Fahd University of Petroleum and Minerals.

[img] PDF
ThesisZainabAlhathloulEdited.pdf
Restricted to Repository staff only until 3 March 2023.

Download (3MB)

Arabic Abstract

تطورت اللغة العربية بمرور الوقت ، ويتم استخدام كلمات جديدة ، والتوقف عن استخدام الكلمات القديمة ، وتغير استخدام الكلمات. ومن الأمثلة الشائعة على هذا التطور اللغة العربية الفصحى والحديثة. علاوة على ذلك ، يقسم المؤرخون واللغويون الأدب العربي إلى عصور. أجريت دراسات قليلة على تصنيف النص العربي إلى فترات زمنية مختلفة ، وتتعلق معظم الأعمال بالقصائد فقط. ومع ذلك ، على حد علمنا ، لم يتم ذكر تصنيف الفترة الزمنية للأدب العربي في البحوث السابقة. نقدم في هذه الرسالة تصنيف الأدب العربي إلى فترات زمنية باستخدام الشبكات العصبية ، بما في ذلك مناهج التعلم العميق. تم استكشاف شبكات ANN و RNNs، بما في ذلك طريقتان من تقنيات الترميز. تم تقييم النماذج المقدمة على مجموعتي بيانات مستخرجة من مجموعتين متاحتين للجمهور من OpenITI ومجموعة بيانات شاملة للقصائد العربية (APCD). غطت كلا المجموعتين الوقت من فترة ما قبل الإسلام حتى العصر الحديث. لقد جربنا إعدادات الفصل المختلفة ، بما في ذلك الفترات الزمنية المحددة مسبقًا (العصور) والفترات الزمنية المخصصة. بالإضافة إلى ذلك ، استخدمنا مصنفات التعلم الآلي التقليدية لبعض الإعدادات ، بحيث تتم مقارنة النتائج بنتائج الشبكة العصبية. أفضل النتائج لمشكلة الفئات الخمس من حيث مقياس F1 هي 0.70 درجة لمجموعة بيانات القصيدة ، و 0.66 درجة لمجموعة بيانات OpenITI. لقد بحثنا أيضًا في تأثير دمج المؤلفين وفصلهم ؛ علاوة على ذلك ، قمنا بالتحقيق في التأثيرات الأخرى مثل التجريد وإزالة كلمات التوقف. بناءً على بعض نتائج التجارب ، وجدنا أن تقسيم الأدبيات إلى عصور محددة مسبقًا هو أمر طبيعي أكثر من التقسيم الافتراضي إلى فترات زمنية مخصصة. أخيرًا ، قمنا بالتحقيق في عصور مختلفة محددة مسبقًا وفترات زمنية مخصصة ، وأبلغنا عن النتائج ، وقدمنا ​​رؤى مثيرة للاهتمام.

English Abstract

The Arabic Language has developed over time, new words are being used, old words are stopped from being used, and the usage of words changed. A common example of that development is classical and modern Arabic. Moreover, historians and linguists divide Arabic literature into eras. Few studies were conducted in relation to classifying Arabic text into different time periods, and most of the works are related to poems only. However, to the best of our knowledge, the temporal period classification of Arabic literature has not been reported in the literature. In this thesis, we present classifying Arabic literature into time periods using neural networks, including deep learning approaches. Fully connected ANN and RNNs were explored, including two tokenization techniques. The presented models were evaluated on two datasets extracted from two publicly available corpora OpenITI and Arabic poem comprehensive dataset (APCD). Both corpora covered the time from the Pre-Islamic period until the modern period. We tried different class setups, including predefined time periods (eras) and custom time periods. Additionally, we utilized traditional machine learning classifiers for some setups, so the results are compared to the neural network results. The best results for the five-class problem in terms of F1-measure are 0.70 score for the poem dataset, 0.66 score for the OpenITI dataset. We also investigated the influence of merging and separating the authors; further, we investigated other influences like lemmatization and removing the stop words. Based on the results of some experiments, we found that dividing the literature into predefined eras is more natural than arbitrary dividing into custom time periods. Lastly, we investigated different predefined eras and custom time periods, reported results, and presented interesting insights.

Item Type: Thesis (Masters)
Subjects: Research > Information Technology
Department: College of Computing and Mathematics > Information and Computer Science
Committee Advisor: Ahmed, Irfan
Committee Members: Mahmood, Sajjad and Aljamaan, Hamoud
Depositing User: ZAINAB ALHATHLOUL (g201901970)
Date Deposited: 10 Mar 2022 06:47
Last Modified: 10 Mar 2022 06:47
URI: http://eprints.kfupm.edu.sa/id/eprint/142068