Spawning Dialogue Tasks from Chit-chatting: A Reinforcement Learning with User Simulation Framework. PhD thesis, King Fahd University of Petroleum and Minerals.
![]() |
PDF (Phd Thesis)
Atheer_Phd_Thesis.pdf Restricted to Repository staff only until 25 April 2026. Download (4MB) |
Arabic Abstract
تزداد استخدامات أنظمة الحوار في التطبيقات الواقعية مع استمرار ارتفاع تفضيلات الاتصال الرقمي. لقد حظيت هذه الأنظمة باهتمام كبير من قِبَل الأكاديميا والصناعة. يستكشف هذا البحث الانتقال من الدردشة العفوية في الحوار المفتوح (Open Domain Dialogue) إلى الحوار المخصص للمهام (Task Oriented Dialogue) ضمن إطار موحد. يجسر الإطار الفجوة بين هذين النوعين من الحوار، من خلال اعتبار الدردشة العفوية كإجراء مشابه للإجراءات الخاصة بالمهام. يتم تقديم مفهوم "اقتراح المهام من الدردشة العفوية"، مما يمكّن أنظمة الحوار من الاستفادة من سياقات الحوار المفتوح لاقتراح المهام المحتملة التي قد تهم المستخدمين. هذه الإمكانية قد تساعد في خلق فرص عمل قيّمة، مثل بيع المنتجات أو حجز مطعم. يتكون الإطار، المبني على التعلم بالتعزيز (Reinforcement Learning)}، من ثلاثة مكونات رئيسية: نظام الحوار الذي نهدف إلى تحسين سياسته، ومقيّم الحوار الذي يتتبع تقدم الحوار ويقدم المكافآت، ومحاكي المستخدم الذي يعمل كبيئة تدريب تفاعلية. لتحسين الأساليب الحالية لمحاكاة المستخدم في تدريب سياسات الحوار باستخدام التعلم بالتعزيز، نستفيد من النماذج اللغوية الكبيرة (LLMs) . يحقق نظام الحوار المقترح، الذي تم تدريبه باستخدام هذا الإطار، نتائج قابلة للمقارنة مع معايير النظام القائم على الحوار(TOD)، مما يوضح قدرته على الحفاظ على الكفاءة حتى مع التعقيد الإضافي الناتج عن الدردشة العفوية. ويبرز هذا إمكانيات الإطار المُقترح الذي يمكّن نظام الحوار من اقتراح المهام بدون طلبها بشكل صريح من قِبل المستخدم.
English Abstract
Dialogue systems are increasingly used in real-world applications as digital communication preferences continue to rise, receiving significant attention from both academia and industry. This research explores the transition from chitchatting in open-domain dialogue (ODD) to task-oriented dialogue (TOD) within a unified framework. By treating chitchat as an action similar to task-oriented actions, the framework bridges the gap between these two dialogue types. The concept of "spawning tasks from chitchatting" is introduced, enabling dialogue systems to leverage ODD contexts to generate potential tasks of interest for users. This capability can create valuable business opportunities, such as selling products or booking a restaurant. The framework, built on reinforcement learning (RL), comprises three main components: the dialogue system, whose policy we aim to optimize; a spawn evaluator that tracks dialogue progress and provides rewards; and a user simulator that serves as an interactive training environment. To improve current user simulation-based approaches for training dialogue policies with RL, we leverage LLMs. The proposed dialogue system, trained using this framework, achieves results comparable to TOD baselines, demonstrating its ability to maintain efficiency even with the added complexity of chitchat interactions. This underscores the potential of the chitchat-based framework, enabling the system to initiate tasks beyond explicit user requests
Item Type: | Thesis (PhD) |
---|---|
Subjects: | Computer |
Department: | College of Computing and Mathematics > Information and Computer Science |
Committee Advisor: | Ahmed, Moataz |
Committee Members: | El-Maleh, Aiman and Hammoudeh, Mohammad and El-Bassuny, Tarek and Mahmood, Sajjad |
Depositing User: | ATHEER ALGHERAIRY (g201906730) |
Date Deposited: | 27 Apr 2025 05:24 |
Last Modified: | 27 Apr 2025 05:24 |
URI: | http://eprints.kfupm.edu.sa/id/eprint/143343 |