Fake Review Detection in Arabic Text

Fake Review Detection in Arabic Text. Masters thesis, King Fahd University of Petroleum and Minerals.

[img] PDF
MS_Thesis_ReemAlJunaid.pdf
Restricted to Repository staff only until 10 June 2025.

Download (5MB)

Arabic Abstract

أصبح التسوق عبر الإنترنت وسيلة عصرية للناس لشراء منتجاتهم. في التسوق عبر الإنترنت، يعتمد العملاء بشكل كبير على مراجعات المنتجات المقدمة من العملاء الآخرين لضبط خيارات الشراء الخاصة بهم. ومع ذلك، قد تكون هذه المراجعات مزيفة وقد أنشأها مرسلي البريد العشوائي لتضليل العملاء والسماح لهم باتخاذ قرارات شراء خاطئة. تقدم هذه الأطروحة طريقة للكشف عن المراجعات المزيفة باللغة العربية في تقييمات المنتجات عبر الإنترنت، والاستفادة من تقنيات التعلم الآلي والعميق إلى جانب تحليل المشاعر. تبدأ المنهجية بجمع المراجعات من منصات التجارة الإلكترونية الشهيرة، مما يؤدي إلى مجموعة بيانات مكونة من 12,865 مراجعة من أمازون السعودية وعلى إكسبريس. يتم إجراء تحليل المشاعر باستخدام نماذج التعلم الآلي التقليدية (Logistic Regression, Decision Tree, Support Vector Machine) ونماذج التعلم العميق المدربة مسبقًا (MARABERT، CAMeLBERT-Mix-SA) على مجموعة مكونة من 10500 مراجعة أصلية من أمازون. MARABERT، المتفوق في التصنيفات الثلاثية بدرجة F 84.12%، قام بتصنيف المراجعات المجمعة بالمشاعر، وتم التحقق من صحتها من خلال التحقق شبه اليدوي بناءً على التقييمات. تم إنشاء مجموعة مفردات تحتوي على 2,146 مصطلحًا لمراجعات المنتجات العربية عبر الإنترنت باستخدام نموذج Logistic Regression المدرّب. تقدم الدراسة ميزات مقترحة قائمة على المشاعر إلى جانب الميزات القائمة على المحتوى والسلوك لتحديد المراجعات المزيفة. يتم استخدام مجموعتي بيانات مشروحتين، وهما Electronic Retailers Yelp وYelpZip، لتدريب نماذج التعلم الآلي التي تستخدم التعلم الخاضع للإشراف وشبه الإشراف. يتضمن التعلم الخاضع للإشراف خمسة نماذج (Decision Tree, Random Forest, Gradient Boosting, Light Gradient-boosting Machine, and Extreme Gradient Boosting) لتقييم فعالية مجموعة الميزات المقترحة. تشير النتائج إلى تحسينات كبيرة مقارنة بالدراسات السابقة. يشتمل النهج شبه الخاضع للإشراف على طريقة قائمة على القواعد لتحديد المراجعات المزيفة الصريحة، متبوعة بتعليق توضيحي للمراجعات غير المسماة المتبقية باستخدام نماذج Decision Tree وRandom Forest مع متغيرات التدريب الذاتي والتعلم PU. يحقق نموذج Random Forest درجة F1 رائعة تبلغ 96.9%، متفوقًا على النماذج الموجودة في الأدبيات عند دمجها مع مجموعة الميزات المقترحة. يوضح هذا النهج الشامل فعاليته في تعزيز اكتشاف المراجعات المزيفة في تقييمات المنتجات العربية عبر الإنترنت.

English Abstract

Online shopping has become a trendy way for people to purchase their products. In online shopping, customers heavily rely on the product reviews provided by other customers to adjust their purchasing choices. However, these reviews may be fake and created by spammers to mislead customers and to let them make wrong purchase decisions. This thesis introduces an approach for detecting Arabic fake reviews in online product evaluations, leveraging machine and deep learning techniques coupled with sentiment analysis. The methodology begins with collecting reviews from popular e-commerce platforms, resulting in a dataset of 12,865 reviews from Saudi Amazon and AliExpress. Sentiment analysis is conducted using traditional machine learning models (Logistic Regression, Decision Tree, Support Vector Machine) and pre-trained deep learning models (MARABERT, CAMeLBERT-Mix-SA) on a set of 10,500 authentic reviews from Amazon. MARABERT, excelling in ternary classifications with an 84.12% F-score, annotated collected reviews with sentiments, validated through semi-manual verification based on ratings. A lexicon set is constructed with 2,146 terms for Arabic online product reviews using a trained Logistic Regression model. The study introduces proposed sentiment-based features alongside content and behavior-based features to identify fake reviews. Two annotated datasets, Electronic Retailers Yelp and YelpZip, are utilized for training machine learning models employing both supervised and semi-supervised learning. Supervised learning involves five models (Decision Tree, Random Forest, Gradient Boosting, Light Gradient-boosting Machine, and Extreme Gradient Boosting) to evaluate the proposed feature set's effectiveness. Results indicate substantial improvements compared to previous studies. The semi-supervised approach incorporates a rule-based method to identify explicit fake reviews, followed by annotation of remaining unlabeled reviews using Decision Tree and Random Forest models with Self-Training and PU-Learning variants. The Random Forest Self-Training model achieves a remarkable F1 score of 96.9%, outperforming existing models in the literature when integrated with the proposed feature set. This comprehensive approach demonstrates its efficacy in enhancing fake review detection in Arabic online product evaluations.

Item Type: Thesis (Masters)
Subjects: Computer
Research
Research > Information Technology
Department: College of Computing and Mathematics > Information and Computer Science
Committee Advisor: Almuhtaseb, Husni
Committee Members: Ahmed, Moataz and Alzaidy, Rabeah
Depositing User: REEM ALJUNAID (g202102170)
Date Deposited: 10 Jun 2024 10:02
Last Modified: 10 Jun 2024 10:02
URI: http://eprints.kfupm.edu.sa/id/eprint/142961