Multi-Task Learning Frameworks for Stance Detection with a Focused Case Study on Arabic Microblogs. PhD thesis, King Fahd University of Petroleum and Minerals.
PDF
Nora_Alturayeif_PhD_Thesis_ePrints.pdf Restricted to Repository staff only until 25 December 2024. Download (16MB) |
Arabic Abstract
إن التطور الكبير في وسائل التواصل الاجتماعي قد غير الطريقة التي نفهم بها الرأي العام. و لقد ظهرت المدونات القصيرة كمصادر أساسية لكشف المشاعر والمواقف بين الناطقين باللغة العربية. بالرغم من ذلك، البحث في هذا المجال يشمل تحديات متجذرة مثل الإيجاز بالكتابة وعدم الرسمية والتنوع اللغوي، مما يجعل كشف الموقف بشكل خاص مهمة صعبة. في هذا السياق، يحتل الموقف، الذي يمثل وجهة نظر الشخص أو سلوكه تجاه موضوع معين، مكانة مركزية في هذا البحث. من خلال استعراض أدبي منهجي، تم التعرف على ثغرات كبيرة في مجال كشف الموقف. تشمل هذه الثغرات عدم وجود مجموعات بيانات معيارية في اللغات غير الإنجليزية، والحاجة إلى نماذج قادرة على دمج أبعاد الرأي المتعددة بشكل مستقل، والحاجة إلى نماذج قابلة للتكيف للتعامل مع أهداف و مواضيع جديدة. يتناول هذا البحث هذه التحديات من خلال تقديم "Mawqif"، وهي مجموعة بيانات متعددة التوسيم الأولى من نوعها تم تطويرها للكشف عن الموقف الخاص بأهداف معينة وتحليل المشاعر وكشف السخرية باللغة العربية. من خلال تقنيات التعلم المنقول Learning Transfer تطور هذه الأطروحة انظمة اكتشاف الموقف، محققة نتائج تُقارن بنجاح بأحدث الدراسات في لغات أخرى. يتناول بحثنا بعد ذلك التعلم المتعدد المهام Learning Multi-Task (MTL) لتعزيز كشف الموقف من خلال دمج أبعاد المشاعر والسخرية. تم اقتراح نماذج MTL جديدة و طرق لوزن المهام في هذه الأطروحة، مما أدى إلى تحسين نتائج كشف الموقف. للتغلب على القيود المتعلقة بالأهداف المحددة، تم اقتراح و تطوير نموذج ،"PROMISE" وهو نموذج مبتكر قائم على اوامر التوجيه حيث يتجاوز الأهداف المحددة، معززًا سيناريوهات كشف الموقف في حالات عدم وجود بيانات تدريب لهذه الأهداف المحددة. النتائج تؤكد قدرته و مرونته على التكيف و على إمكانية نجاح نماذج MTL المعتمدة على اوامر التوجيه. يؤسس هذا البحث أهمية بالغة لكشف الموقف ليس فقط لفهم الرأي العام ولكن أيضًا لتطبيقاته في مجموعة متنوعة من المجالات مثل التحليل السياسي و تحليل أسواق المال و رصد موقف الأفراد اتجاه القضايا الإجتماعية. إنه يقدم منهجيات قوية ومجموعات بيانات رائدة ونماذج جديدة تسهم في مجال أوسع لتنقيب الآراء. علاوة على ذلك، نؤكد على هذه المهمة كركن أساسي في مجال معالجة اللغة الطبيعية باللغة العربية، ممهدة الطريق لأنظمة كشف الموقف في عصر التواصل الإجتماعي.
English Abstract
The rise of social media has transformed our perception of public opinion. Arabic microblogs have become vital for uncovering sentiments and stances within the Arab-speaking population. However, navigating this domain presents challenges such as brevity, informality, and linguistic diversity, making stance detection demanding. In this context, stance, representing an individual's perspective on a specific topic, is central to this research. Through a systematic literature review, we identified gaps in stance detection, including the absence of benchmarked non-English datasets, a shortage of multi-dimensional models for understanding public opinion, and adaptability issues for unforeseen targets. Our response includes introducing "Mawqif," a pioneering multi-label dataset for target-specific stance detection, sentiment analysis, and sarcasm detection in Arabic. We employ sequential transfer learning for autonomous stance detection, achieving state-of-the-art results. Our research then explores Multi-Task Learning (MTL) to enhance stance detection by integrating sentiment and sarcasm dimensions. We propose innovative MTL models and task weighting schemes, emphasizing the importance of task prioritization when integrating multiple dimensions. Extensive experiments confirm our models' effectiveness, notably the multi-target sequential MTL model with hierarchical weighting, which outperforms single-task models by 8 points in Macro F1, achieving state-of-the-art results. To address the challenge of generalizing stances beyond specific targets, we introduce ``PROMISE," a pioneering prompt-based model for low-shot stance detection scenarios. We thoroughly assess the model's effectiveness in cross-task and cross-target settings. In several instances, the model's performance in low-shot scenarios is remarkably comparable to that in full-shot scenarios. For instance, in zero-shot and 20-shot scenarios, PROMISE achieves only a 5 and 3-point difference, respectively, compared to full-shot performance. This emphasizes the model's value in real-world applications, particularly when dealing with emerging topics and diverse domains. This research underscores the crucial role of stance detection in understanding public opinion with diverse applications. It offers robust methodologies, pioneering datasets, and novel models that contribute to the broader field of opinion mining. Moreover, we establish this task as a cornerstone in Arabic Natural Language Processing, paving the way for more accurate and adaptable stance detection systems in the era of social media.
Item Type: | Thesis (PhD) |
---|---|
Subjects: | Computer |
Department: | College of Computing and Mathematics > Information and Computer Science |
Committee Advisor: | Ahmed, Moataz |
Committee Co-Advisor: | Luqman, Hamzah |
Committee Members: | Selim, Shokri and Alshayeb, Mohammad and Albusyuni, Tariq |
Depositing User: | NORA ALTURAYEIF (g201902190) |
Date Deposited: | 25 Dec 2023 12:15 |
Last Modified: | 25 Dec 2023 12:15 |
URI: | http://eprints.kfupm.edu.sa/id/eprint/142681 |