HUMAN IN-PLACE ACTION RECOGNITION USING COMBINATION OF KINECT DATA STREAMS

HUMAN IN-PLACE ACTION RECOGNITION USING COMBINATION OF KINECT DATA STREAMS. Masters thesis, King Fahd University of Petroleum and Minerals.

[img]
Preview
PDF
MS_Thesis_(Mashaan_Awad_Alshammari_ID#201301930).pdf

Download (31MB) | Preview

Arabic Abstract

تُستخدم تقنية التعرف على حركة الإنسان في تطبيقات عدة، من أهمها: التطبيقات الطبية وتطبيقات الحاسوب التفاعلي. الجدير بالذكرأن هذا المجال البحثي تطور بشكلٍ كبير بعد تقديم مايكروسوفت لجهاز كينيكت© . حركة الإنسان يجب أن تظهر في مساحةٍ محدودة لكي يتم التعرف عليها بدقة عن طريق كينيكت. لذا فإن طريقة عمل كينيكت مناسبة للتعرف على حركة الإنسان المكانية التي لا تتطلب التحرك لمسافات طويلة. في هذا البحث، عملنا على التعرف على بعض الحركات المكانية مثل: القفز والركل. في السابق كان التعرف على حركة الإنسان يتم عن طريق تحليل لقطات الفيديو الملونة أو البُعدية. لكن هذه اللقطات تعاني من بعض الصعوبات عند استخدامها لوصف حركة الإنسان، مثل: لون الملابس في اللقطات الملونة أو تداخل أعضاء الجسم في اللقطات البُعدية. البرمجيات المُرفقة مع الإصدار الثاني من جهاز مايكروسوفت كينيكت تقدّم معلومات قيّمة، مثل: اللقطات الملونة واللقطات البُعدية ومؤشر الجسم والإحداثيات الثلاثية لبعض مفاصل الجسم. في هذه الأطروحة استخدمنا اللقطات البُعدية لتقسيم الحركة المكانية واستخدمنا مؤشر الجسم لإزالة الخلفية عن الجسم. وللتعرف على الحركة إستخرجنا من الإحداثيات الثلاثية لبعض مفاصل الجسم ثلاثة أنواع من السِمات هي: الانحراف المعياري والمسافة الإقليدية بالإضافة الى بعض المقاييس المبنيّة على تحويل المويجات المنفصلة. النتائج المخبرية أظهرت تحسناً في أداء خوارزمية التعرف بعد تطبيق سِمات مُستخرجة من الإحداثيات الثلاثية لمفاصل الجسم مقارنةً باستخدام الإحداثيات الثلاثية لمفاصل الجسم كسِمات مباشرة. أيضاً من المشاكل التي تواجه تقنية التعرف على حركة الإنسان هي الحاجة الى كمية كبيرة من بيانات الحركة. تسجيل هذه البيانات الحركية باستخدام أشخاص حقيقيين يزيد من صعوبة العملية بسبب الحاجة إلى التواصل مع الشخص بالإضافة إلى شرح تفاصيل الحركة له. كهدف إضافي لهذه الأطروحة، درسنا إمكانية تدريب خوارزمية التعرف على بيانات حركية اصطناعية ومن ثم اختبارها على بيانات حركية حقيقية لتوفير الوقت والجهد. التجارب التي قمنا بها أظهرت أن خوارزمية التعرف التي تم تدريبها على بيانات حركية اصطناعية تمكنت من التعرف على بيانات حركية حقيقية بنسبة تعرف تجاوزت ٩٠% وهو ما يدعم الهدف الثاني لهذه الأطروحة.

English Abstract

Human action recognition is an important aspect of multiple real life applications (e.g., video search, health care, and human-computer interaction). The introduction of Microsoft Kinectc boosted massively this research field. Kinect defines and monitors a very restricted area for human movement detection. Human actions must take place in this restricted are in order to be captured and recognized accurately. This environment is only suitable for In-Place actions that occur in a single place without requiring the subject to move long distances. In this research, we aim to recognize In-Place actions such as punch, jump, or pick up. Traditionally, 2D video representations (i.e., Red- Green-Blue (RGB) and depth videos) were the main sources for human action recognition systems. However, the human action features extracted from RGB and depth videos have major limitations such as background noise in RGB videos and self-occlusion in depth videos. The second release of Microsoft Kinectc SDK provides rich data streams, including: RGB frames stream, depth frames stream, body index stream, and body joint-tracking stream. In this thesis, we utilized depth frames stream, body index stream, and body joint-tracking stream to perform action segmentation, background subtraction and action recognition. We proposed a new feature set combining 15 features vectors, to recognize human actions recorded by Kinect system. The proposed features, extracted from joint positions, consist of: standard deviation, Euclidean distance, and discrete wavelet transform (DWT) metrics. Experiments were conducted using the proposed features and benchmarked against those based on raw joints positions. In experiments involving unseen subjects, the proposed features performed better than those based on raw joint positions. Moreover, generating a comprehensive training dataset of human actions is a challenging task. As a secondary objective for our research study, we investigated the feasibility of training a classifier on synthetic human action data and testing it using real human actions. Simulation results indicate that the classifiers trained entirely on synthetic data, attained 90% recognition rates on real test data, which supports our second objective.

Item Type: Thesis (Masters)
Subjects: Computer
Department: College of Computing and Mathematics > Information and Computer Science
Committee Advisor: AHMED, A.F.
Committee Members: Ghouti, L. and Hassan, M.R.
Depositing User: MASHAAN AWAD ALSHAMMARI (g201301930)
Date Deposited: 27 Dec 2015 07:58
Last Modified: 01 Nov 2019 16:31
URI: http://eprints.kfupm.edu.sa/id/eprint/139756