SENTIMENT ANALYSIS FOR SPORTS FANATICISM IN ARABIC SOCIAL MEDIA TEXT

SENTIMENT ANALYSIS FOR SPORTS FANATICISM IN ARABIC SOCIAL MEDIA TEXT. Masters thesis, King Fahd University of Petroleum and Minerals.

[img]
Preview
PDF
MS_Thesis_By_Moh_Alqmase.pdf

Download (3MB) | Preview

Arabic Abstract

التعصب الرياضي هو أحد المشكلات الاجتماعية التي لها آثار سلبية على النسيج الاجتماعي، فهو عاطفة نفسية محملة بالكراهية ضد الفريق المنافس مع التحيز الشديد للفريق الخاص؛ بحيث تتغلب عاطفة الكراهية والتحيز على التفكير العقلاني. وبما أن مواقع التواصل الاجتماعي مثل توتر (Twitter) أصبحت من الوسائل الأكثر شيوعاً للتواصل بين عشاق الرياضة؛ فقد ظهرت الحاجة لأداة تساعد في اكتشاف هذه الظاهرة في مواقع التواصل الاجتماعي وقياسها آليًا. نستخدم في هذا البحث تقنيات تحليل المشاعر لدراسة التعصب الرياضي في النّصوص العربية المستخدمة في تويتر. وتهدف هذه الدراسة إلى تصنيف النصوص العربية آليًا إلى نصوص تتصف بالتعصب ونصوص لا تتصف بالتعصب. ويُساعد هذا التصنيف الباحثين والمتخصصين والمهتمين في اكتشاف وقياس درجة التّعصب الرياضي في مواقع التواصل الاجتماعي آليًا. ولكي نستطيع بناء مصنف نصوص آلي للتعصب الرياضي، قمنا بصياغة مفهوم التعصب الرياضي في النصوص إلى معايير ومؤشرات ودلالات ملائمة تُسهم في تعريف وتحديد ما هو النص الذي يحمل تعصبًا، وما هو النص الذي لا يحمل تعصبًا، وتمت صياغة المفهوم تحت إشراف متخصص في علم النفس الاجتماعي الرياضي. ومن ثم اسُتخدمت هذه الدلالات كأساس لبناء الموارد المطلوبة لتطبيق تقنية تحليل المشاعر، مثل مكانز الكلمات (lexicons) ومكانز الجمل الموسومة (annotated corpora). ولأجل بناء هذه الموارد تم جمع ما يقارب من أربع مليون تغريدة من تويتر، وتم إعدادها لبناء مكنز جمل موسومة على شكل حزم بيانات موسومه (annotated datasets) تساعد الباحثين لإجراء بحوث في هذا المجال. وفي هذه الدراسة استخدمنا طريقتين لبناء مكنز الكلمات، الطريقة الأولى (Positive Pointwise Mutual Information) وهي الطريقة الأكثر شيوعاً لبناء مكنز الكلمات، بينما الطريقة الثانية هي طريقة تم اقتراحها في هذا البحث تسمى تكرار المصطلح-معكوس تكرار السياق (Term-Frequency Inverse-Context-Frequency). وبعد مقارنة نتائج أداء الطريقتين تبين أن الطريقة المقترحة أفضل من الطريقة الأخرى حيث أن أعلى دقة أدى للطريقة المقترحة هو 91% بينما أعلى دقة أداء للطريق الأخرى 86%. وبعد أن تم إعداد الموارد المطلوبة لتطبيق تقنيات تحليل المشاعر، أجرينا عدة تجارب بعدة طرق وباستخدام ثلاث خوارزميات من خوارزميات الذكاء الاصطناعي وهي (SVM, LR and NB) لبناء نموذج تصنيف النصوص. وكنتيجة لهذا البحث قمنا بتطوير أداة تعمل على تصنيف النصوص العربية آليًا. ويمكن لعشاق الرياضة استخدام هذه الأداة لتجنب التعصب الرياضي أثناء كتابة الآراء. كما يمكن لهذه الأداة مساعدة المواقع الإخبارية الرياضية للتحقق من الرسائل والتعليقات التي ينشرها الزوار وحجب الرسائل التي تعاني من التعصب الرياضي. الكلمات المفتاحية: التحيز الرياضي، التعصب الرياضي، التنقيب عن الآراء، الشبكات الاجتماعية، التعلم الآلي، المعالجة العربية.

English Abstract

Sport fanaticism is one of the social problems that have negative impact on social fabric. It is a psychological emotion that carries a blindness hatred against the competitive (teams, players, etc.) combined with a blindness love toward favorite (teams, players, etc.) where the emotional attitudes overcome the mental attitudes. Social media sites (e.g. Twitter) have become common means for communication between sport fans. Therefore, understanding how social media text contributes to increase or decrease sports-fanaticism is essential. We need to formulate the concept of Sports-Fanaticism into suitable criteria, rules, attributes, aspects, features and indicators that allow applying Arabic sentiment analysis techniques to help in automatically detecting and measuring this phenomenon in social network sites. The target of this research work is to automatically classify Arabic texts under consideration into fanatic and non-fanatic emotion. This will help the interested researchers and specialists in detecting and measuring the degree of sport fanaticism automatically. After formulating the problem, the proposed formalism was used as a guide to build annotated corpora and fanaticism-lexicons. To build these resources, around 4 million tweets were collected. We have used Positive Pointwise Mutual Information (PPMI) and Term-Frequency Inverse-Context-Frequency (TFICF) methods to generated ten fanatic-lexicons where Our proposed TFICF method showed better performance than PPMI in all experiments. The highest accuracy of TFICF is 91% and the highest accuracy of PPMI is 86%. Large-scale annotated corpora were also constructed. After building the required resources, we have conducted various experiments using different approaches, algorithms, and features. SVM, LR and NB classifiers were investigated. As one of the results, we have developed a classification tool that automatically evaluates a given text against sport fanaticism. such tool will help news sites to automatically filter messages posted by visitors to avoid sport fanaticism. Keywords: Sport Prejudice, Sport Intolerance, Opinion Mining, Social Networks, Machine Learning, Arabic Processing, Text Mining

Item Type: Thesis (Masters)
Subjects: Computer
Department: College of Computing and Mathematics > Information and Computer Science
Committee Advisor: Al-Muhtaseb, Husni
Committee Co-Advisor: Rabaan, Habib
Committee Members: Alshayeb, Mohammad and Ahmed, Moataz and Al-Khatib, Wasfi
Depositing User: MOHAMMED ALQMASE (g201531270)
Date Deposited: 04 Sep 2019 07:19
Last Modified: 31 Dec 2020 09:21
URI: http://eprints.kfupm.edu.sa/id/eprint/141005