Sequence Labeling in Low Resource Scenarios. PhD thesis, King Fahd University of Petroleum and Minerals.
PDF
phd-thesis-final-with-cover-page-all-signatures-150524-ready-for-printing.pdf Restricted to Repository staff only until 21 May 2025. Download (65MB) |
Arabic Abstract
تتناول أطروحة الدكتوراه هذه التعلم النشط والإشراف الضعيف والتعلم شبه الخاضع للإشراف في حالات وضع العلامات على تسلسل المواردتحدد تسمية التسلسل مجموعة من الحالات التي يكون لدينا فيها تسميات مرتبطة بكل رمز مميز في التسلسل. تتضمن أمثلة وضع العلامات التسلسلية ما يلي: التعرف على الكيان المسمى، ووضع علامات على جزء من الكلام، وملء الفتحات، وتمثل مكونات مهمة في العديد من مهام معالجة اللغة الطبيعية. تتضمن سيناريوهات الموارد المنخفضة سيناريوهات حيث يمكننا الوصول إلى كمية محدودة من البيانات المصنفة. يعتمد نجاح عملية التعلم الآلي بشكل كبير على مجموعات البيانات المشروحة البشرية عالية الجودة. وفي مجالات محددة، يكون العامل البشري أكثر أهمية نظرًا لأننا نحتاج إلى خبراء في المجال لشرح البيانات بشكل صحيح. التعلم النشط، والإشراف الضعيف، والتعلم شبه الخاضع للإشراف هي نماذج للتعلم الآلي تُستخدم لتعظيم فوائد جهود التعليقات التوضيحية البشرية. يضيف التعلم النشط في الوقت الفعلي مستوى آخر من التعقيد إلى العملية برمتها. يمكن قياس نجاح الأساليب من حيث الفعالية ، والكفاءة (عدد العينات المشروحة المستخدمة في التدريب)، والقيمة المثلى القائمة على التكلفة (قيمة المقايضة على أساس تكلفة الشرح الحقيقية والدقة). نحن نهدف إلى فحص التعلم النشط والإشراف الضعيف والتعلم شبه الخاضع للإشراف في سيناريوهات وضع العلامات التسلسلية منخفضة الموارد في الوقت الفعلي. الهدف الرئيسي هو استكشاف الطريقة الأكثر فعالية وكفاءة لإنشاء بيانات مصنفة عالية الجودة بأقل جهد بشري. ترتبط أهدافنا أيضًا بمعالجة العقبات المحتملة في جهود التعليق التوضيحي مثل استخدام اللغة المجازية. في المجموعة الأولى من التجارب، نبدأ بسيناريو في الوقت الفعلي، حيث نراقب إنشاء مجموعة بيانات لتصنيف تسلسل الموارد المنخفضة ضمن نموذج التعلم النشط في الوقت الفعلي. عند الانتهاء من التعلم النشط في الوقت الفعلي على مجموعة البيانات التي تم إنشاؤها، يتم استخدام الإشراف الضعيف لفحص فوائد التصنيفات الضعيفة في مجموعة البيانات المنشأة حديثًا. يتم استخدام التعلم شبه الخاضع للإشراف بعد ذلك لاستخدام البيانات المصنفة وغير المسماة لتحسين التعميم والقوة. تعمل هذه النماذج الثلاثة كنهج أساسي، وبعد ذلك نستكشف عدة مجموعات من هذه النماذج الثلاثة في مجموعة البيانات التي تم إنشاؤها. علاوة على ذلك، فإن إنشاء مجموعة البيانات الجديدة في سيناريو وضع العلامات على تسلسل الموارد المنخفض يفتح الباب لمزيد من التجارب. لقد قمنا بتحسين عملية التعلم النشط الأولية من خلال تقديم تسع استراتيجيات استعلام لفحصها في بيئة واحدة ومجمعة. بالنسبة للطرق المجمعة، استلهمنا نظرية التصويت واستخدمنا تقنيات تجميع التفضيلات الأربعة للحصول على استراتيجيات استعلام متعددة المعايير مدمجة في رتبة واحدة. تم إجراء التجربة على مجموعة البيانات الخاصة بنا ومجموعتي بيانات مرجعية أخريين. علاوة على ذلك، أثناء التجربة، اكتشفنا أن استخدام اللغة التصويرية يضيف طبقة من التعقيد إلى عملية التعليق التوضيحي والكشف. قمنا أيضًا بفحص أشكال الكلام كحالات تصنيف تسلسل الموارد المنخفضة وكمهام تصنيف التسلسل، ويتم تطبيق الأخير في حالات الاستخدام الحقيقي (معالجة متطلبات المستخدم الوظيفية). لقد وجدنا أن النهج الهجين للتعلم النشط، والإشراف الضعيف، والتعلم شبه الخاضع للإشراف هو الأكثر ملاءمة لوضع العلامات التسلسلية منخفضة الموارد في الوقت الفعلي من حيث الفعالية والكفاءة والقيمة المثلى القائمة على التكلفة. علاوة على ذلك، كشفت التجارب الإضافية على استراتيجيات الاستعلام المتعددة أن الأساليب المجمعة، التي تتكون من عدة استراتيجيات استعلام موحدة في التصنيف العالمي، تتفوق في الأداء على استراتيجيات الاستعلام الفردي. تؤكد نتائجنا بشأن تحديات اللغة المجازية مدى تعقيد هذه الحالات. تضيف النتائج المقدمة في هذه الأطروحة إلى الأدبيات الخاصة بوضع العلامات على تسلسل الموارد المنخفضة في الوقت الفعلي وتقدم مساهمات قيمة. يوفر هذا البحث مؤشرات مفيدة لتطبيقات العالم الحقيقي حيث نريد تعظيم مخرجات المشاركة البشرية المحدودة في عمليات التعلم الآلي الخاصة بمجال معين.
English Abstract
Sequence labeling defines a set of instances where we have labels associated with every token in the sequence. Instances of sequence labeling include: named entity recognition, part-of-speech tagging, and slot filling and represent crucial components in several natural language processing tasks. Low resource scenarios include scenarios where we have access to a limited amount of labeled data. The success of the machine learning process highly depends on high-quality human-annotated datasets. In specific domains, the human factor is even more important given that we need domain experts for proper data annotation. Active Learning, Weak Supervision, and Semi-supervised Learning are machine learning paradigms that are used to maximize the benefits of human annotation effort. Real-time Active Learning adds another level of complexity to the whole process. The success of the approaches can be measured in terms of effectiveness (F1 score), efficiency (number of annotated samples used in training), and cost-based optimum value (trade-off value based on real annotation cost and F1 score). We aim to examine Active Learning, Weak Supervision, and Semi-supervised Learning in real-time low-resource sequence labeling scenarios. The main objective is to explore the most effective and the most efficient way to generate high-quality labeled data with minimum human effort. Our goals are also related to addressing possible obstacles in annotation effort such as the usage of figurative language. In the first set of experiments, we begin with a real-time scenario, where we monitor the creation of a low resource sequence labeling dataset under a real-time active learning paradigm. Upon the completion of the real-time active learning on the created dataset, Weak Supervision is employed to examine the benefits of weak labels in this newly created dataset. Semi-supervised learning is employed next to utilize labeled and unlabeled data for better generalization and robustness. These three paradigms serve as a baseline approach and later we explore several combinations of these three paradigms on the created dataset. Moreover, the creation of the new dataset in a low resource sequence labeling scenario opens the door for further experimentation. We improved the initial active learning process by introducing nine query strategies to examine them in a single and combined setting. For the combined methods we were inspired by voting theory and we employed its four preference aggregation techniques to have multiple criteria query strategies combined into a single rank. The experimentation was done on our dataset and two other benchmark datasets. Furthermore, during the experimentation, we discovered that the usage of figurative language adds a layer of complexity to the annotation and detection process. We further examined figures of speech as low resource sequence labeling instances and as sequence classification tasks, the latter applied in real use cases (addressing functional user requirements). We found that the hybrid approach of Active Learning, Weak Supervision, and Semi-supervised Learning is the most suitable for real-time low-resource sequence labeling in terms of effectiveness, efficiency, and cost-based optimum value. Moreover, further experimentation on multiple query strategies revealed that combined methods, consisting of several query strategies unified in global ranking, outperform single query strategies. Our results on figurative language challenges confirm the complexity of these instances. The results presented in this thesis add to the real-time low resource sequence labeling literature and offer valuable contributions. This research provides useful pointers for real-world applications where we want to maximize the output of the limited human involvement in domain-specific machine-learning processes.
Item Type: | Thesis (PhD) |
---|---|
Subjects: | Computer Research Research > Information Technology Math |
Department: | College of Computing and Mathematics > Information and Computer Science |
Committee Advisor: | Mahmood, Sajjad |
Committee Co-Advisor: | Ahmad, Irfan |
Committee Members: | Alshayeb, Mohammad and Niazi, Mahmood and Hassine, Jameleddine |
Depositing User: | ARMIN KOBILICA (g201403920) |
Date Deposited: | 22 May 2024 05:20 |
Last Modified: | 22 May 2024 05:20 |
URI: | http://eprints.kfupm.edu.sa/id/eprint/142869 |