KFUPM ePrints

AUTHORSHIP ATTRIBUTION OF ARABIC TEXTS

l AUTHORSHIP ATTRIBUTION OF ARABIC TEXTS. Masters thesis, King Fahd University of Petroleum and Minerals.

[img]PDF - Accepted Version
1516Kb

Arabic Abstract

تتناول هذه الرسالة الأساليب المختلفة لمعرفة كاتب النصوص العربية من خلال الاستفادة من التقنيات والسمات والمصنفات الحديثة. كما تساهم هذه الرسالة بإضافة وتصميم سمات وتقنيات جديدة. تم في هذا البحث بناء وتطوير نظام فعال لمعرفة كاتب النصوص العربية وتمييز خصائص وأسلوب الكتابة لدى الكاتب. ونظرا لعدم وجود قاعدة بيانات لهذا الغرض، فقد شمل هذا العمل بناء قاعدة بيانات لتحديد كاتب النصوص العربية حيث تم اختيار20 من كتاب الأعمدة المشهورين في الصحف العربية. تم استخراج العديد من السمات اللغوية وهي: المفردات المستخدمة، واحتمالات سلسلة المحارف المتتالية (Character n-grams). وقد تم استخدام نوع جديد من السمات وهو ثراء الكلمات المتتالية (Word n-grams richness) والكلمات الخاصة بكل كاتب. وكذلك اقتراح مجموعة تحوي 309 من الكلمات الوظيفية في اللغة العربية. كما تم إنشاء سمات جديدة عالية المستوى وهي السمات ذات الدلالة المعنوية في اللغة العربية وتطبيقها لأول مرة لمعرفة كاتب النصوص العربية. كما تم اختبار وتقييم مجموعة من تقنيات اكتشاف واستخلاص السمات الأكثر كفاءة من بين السمات المقترحة ومن ثم تطبيق التقنيات الأكثر كفاءة. وقد تم إجراء مجموعة من التجارب بتطبيق السمات المستخلصة والسمات المختصرة على قاعدة البيانات المنشأة باستخدام مجموعة من المصنفات: مصنف المسافة الاقليدية (Euclidian Distance) ومصنف الجيران الأقرب (K-NN)، وقاعدة الدلتا (Delta Rule)، ومصنف الشبكات العصبية (MLP)، ومصنفات دعم الاتجاهات (SMO and LS-SVM). أجريت العديد من التجارب المختلفة في هذا النظام لمقارنة السمات المختلفة المستخدمة وأشارت النتائج إلى كفاءة النظام في معرفة كاتب النصوص العربية. حقق النظام دقة بلغت نسبتها 99.67 % وأشارت النتائج إلى كفاءة السمات والتقنيات المستخدمة مقارنة مع الأنظمة الأخرى.

English Abstract

Authorship attribution (AA) of Arabic text is addressed by utilizing the state of the art identification techniques, stylometric features, feature selection techniques and classifiers. This is in addition to designing novel stylometric features and techniques in this thesis. An authorship attribution prototype for Arabic text is designed and developed. As there is no benchmarking corpus for Arabic AA, we first constructed an Arabic corpus of 20 well-known authors for authorship attribution. We investigated several stylometric features including lexical, character and syntactic features. We proposed a set of 309 Arabic function words and new lexical features (viz. word n-grams richness and specific words per author). In addition, we constructed novel stylometric features (viz. Arabic semantic features) and evaluated them on AA. We tested several feature selection techniques and then applied them in order to optimize the extracted features and to study their effect on Arabic AA. The full and the selected feature vectors are evaluated using several classification methods (viz. Euclidean Distance (ED), K-nearest Neighbours (K-NN), Delta rule, Least Squares Support Vector Machines (LS-SVM), Multi-layer Perceptron (MLP) and Sequential Minimum Optimization based on Support Vector Machines (SMO)). The experimental results show that our system can identify the author of Arabic texts successfully such that it achieves best accuracy rate of 99.67%. Our system also compares favorably with the literature.



Item Type:Thesis (Masters)
Subjects:Computer
Research > Information Technology
Islam and Arabic
Divisions:College Of Computer Sciences and Engineering > Information and Computer Science Dept
Committee Advisor:Mahmoud, Sabri
Committee Members:Al-Khatib, Wasfi and Ghouti, Lahouari
ID Code:139306
Deposited By:AL-AZANI SADAM HUSSEIN MOHAMMED (g201002580)
Deposited On:18 Jun 2014 10:35
Last Modified:18 Jun 2014 10:35

Repository Staff Only: item control page