PARTIALLY OBSERVABLE MARKOV DECISION PROCESS-BASED FRAMEWORK FOR EMOTIONAL BEHAVIOR OF SOCIALLY ASSISTIVE ROBOT

PARTIALLY OBSERVABLE MARKOV DECISION PROCESS-BASED FRAMEWORK FOR EMOTIONAL BEHAVIOR OF SOCIALLY ASSISTIVE ROBOT. Masters thesis, King Fahd University of Petroleum and Minerals.

[img] PDF
G202309890_Jamilu_Umar_Yahaya_MSc_Thesis_writeup_updated.pdf
Restricted to Repository staff only until 29 December 2026.

Download (4MB)

Arabic Abstract

ينبغي للروبوتات الاجتماعية المساعدة (SARs) أن تخطّط وتتصرف مع أخذ عواطف المستخدم، وانتباهه، ونيّته، والسياق الاجتماعي الذي يصنعه الآخرون في الحسبان—وهي عوامل تكون في الغالب جزئية الرصد. يطوّر هذا البحث إطاراً متكاملاً لاتخاذ القرار يُضمّن هذه المتغيرات ضمن صيغتي عملية قرار ماركوف (MDP) وعملية قرار ماركوف جزئية الرصد (POMDP) لتمكين تفاعل إقناعي وتعاطفي وتكيّفي. ويتقدم العمل على مراحل: (1) نموذج MDP واعٍ بالعاطفة يمثّل عواطف الإنسان والروبوت، وانتباه الإنسان، ووجود الآخرين بانتقالات ذات بنية بايزية ومردود (مكافأة) يغلّب الانخراط؛ (2) نموذج MDP لإدارة الدوافع/المهام يدمج اهتمام المستخدم/نيّته لتوقيت وترتيب أولويات “الدوافع” الصحية والوقائية؛ (3) نموذج موحّد يُحلَّل إلى نموذجي فرعي MDP للعاطفة وآخر للدوافع بغرض زيادة القابلية للحوسبة؛ و(4) نموذج POMDP لمعالجة الحالات غير القابلة للرصد الكامل. وللتعامل مع الحالات البشرية الخفية، يوسّع البحث الصياغة إلى POMDP مع التخطيط على فضاء الاعتقاد. وتُشتق نماذج الرصد للصوت والحركة وتعبير الوجه من بيانات استبيان وتُضمَّن عبر علاقات بايزية، كما تُحدَّث الاحتمالات الرئيسة أثناء التفاعل بآلية تكيّف آنية. ويُقدَّم أيضاً خوارزميةٌ استرشادية لاختيار الأفعال في فضاء الاعتقاد لتوجيه القرارات تحت جزئية الرصد. تتحقق فعالية النهج عبر دراسات محاكاة. إذ إن تحليل النموذج المركزي (98,000 حالة) يخفض الحيّز الفعلي للحالات إلى نحو 1,600 ويقلّص زمن التخطيط من 1537.6 ثانية إلى 3.3 ثانية على العتاد المحدّد، مع تقصير أفق الإقناع من 10 إلى 5 حِقَب اتخاذ قرار. كما تُظهر المقارنات أن متحكّم POMDP يحقق إتماماً أسرع للمهام وسلوكاً أكثر متانة من خط أساس MDP تحت ضوضاء المستشعرات والتشتيت الاجتماعي، بما ينسجم مع الدافع إلى تبنّي جزئية الرصد. وبوجه عام، تُبيّن النتائج أن: (أ) نمذجة الانتباه والحضور الاجتماعي ونيّة المستخدم تعزّز واقعية وسياسة SAR وفعاليتها؛ (ب) التفكيك البنيوي رافعة قوية لجعل الحساب ممكناً في فضاءات قرار كبيرة؛ و(ج) التخطيط المعتمد على الاعتقاد يضفي متانة وكفاءة عندما تكون الحالات البشرية الرئيسة جزئية الرصد. وتمهّد هذه الخلاصات الطريق للنشر الواقعي على منصات SAR محدودة الموارد، ولتوسيع تقدير نماذج الانتقال والرصد بأساليب تعلّم آلي أشمل.

English Abstract

Socially Assistive Robots (SARs) must plan and act while accounting for user emotions, attention, intent, and the social context created by other people (factors that are often only partially observable). This thesis develops an integrated decision-making framework that embeds these variables into Markov Decision Process (MDP) and Partially Observable MDP (POMDP) formulations to enable persuasive, empathetic, and adaptive interaction. The work proceeds in stages: (i) an emotion-aware MDP that models human/robot emotions, human attention, and the presence of others with Bayesian-structured transitions and a reward that prioritizes engagement; (ii) a drive/task-management MDP that incorporates user interest (intent) to time and prioritize health and wellness “drives”; (iii) a consolidated model that is decomposed into emotion- and drive-level sub-MDPs for tractability; and (iv) a POMDP model to take care of the states that are not fully observable. To address hidden human states, the thesis extends the formulation to a POMDP with belief-state planning. Observation models over voice, movement, and facial expression are derived from questionnaire data and embedded via Bayesian relationships, and an online adaptation mechanism updates key probabilities during interaction. A belief-space action-selection heuristic is introduced to guide decisions under partial observability. Simulation studies validate the approach. Decomposing the centralized model (98,000 states) reduces effective state space to 1600 and reduces planning time from 1537.6 seconds to 3.3 seconds, while shortening the persuasion horizon from 10 to 5 decision epochs. Comparative experiments show the POMDP controller achieves faster task completion and more robust behavior than the MDP baseline under sensor noise and social distraction, consistent with the motivation for partial observability. Overall, the results demonstrate that (a) modeling attention, social presence, and user intent improves the realism and efficacy of SAR policies; (b) structural decomposition is a powerful lever for computational feasibility in large decision spaces; and (c) belief-based planning confers robustness and efficiency when key human states are only partially observable. These findings lay the groundwork for real-world deployment on resource-constrained SAR platforms and for broader learning-based estimation of transition and observation models.

Item Type: Thesis (Masters)
Subjects: Systems
Engineering
Department: College of Engineering and Physics > Control and Instrumentation Engineering
Committee Advisor: Nasir, Ali
Committee Members: Mysorewala, Muhammad Faizan and Al-Yazidi, Nezar Mohammed
Depositing User: JAMILU UMAR (g202309890)
Date Deposited: 29 Dec 2025 12:15
Last Modified: 29 Dec 2025 12:15
URI: http://eprints.kfupm.edu.sa/id/eprint/143935