Enhanced Deep Reinforcement Learning Q-Network Models

Enhanced Deep Reinforcement Learning Q-Network Models. Masters thesis, King Fahd University of Petroleum and Minerals.

[img]
Preview
PDF (Master's Thesis)
Enhanced_Deep_Reinforcement_Learning_Q-Network_Models_Anas_Mohammed_Albaghajati.pdf - Accepted Version
Available under License Creative Commons Attribution Non-commercial No Derivatives.

Download (16MB) | Preview

Arabic Abstract

يعتبر الذكاء الاصطناعي أحد أهم وأسرع المجالات النامية في الحاسب الآلي. وقد حاول الباحثون من مختلف التخصصات في فهم الذكاء البشري ونقل هذه القدرة إلى الآلات. وقد أدى التقدم في التكنولوجيا جنباً إلى جنب مع المستجدات في الخوارزميات المقترحة من قبل الباحثين في تحقيق تقدمات ملحوظة على مر السنين ابتداء من هزيمة بطل العالم في الشطرنج من قبل دييب بلو وانتهاء بهزيمة اللاعب الأسطوري العالمي في لعبة جو الصينية مؤخراً من قبل الحاسب الآلي. ولم يكن ليتم تحقيق هذه الإنجازات الأخيرة إلا مع وجود تقنية جديدة تدمج بين اثنتين من المجالات الراسخة في الذكاء الاصطناعي وتعلم الآلة: التعليم المعزز والتعلم العميق. هذا الاندماج الذكي نتج عنه تقنية ذات وتيرة تطور سريعة وهي تقنية التعليم العميق المعزز. هذه المجموعة الجديدة من الخوارزميات لديها القدرة على استخدام التقدم في التعلم العميق لتطوير دوال تقريبية للخصائص والتي بدورها تساعد على عملية التعلم في عملاء التعليم المعزز باستخدام مدخلات الصور عالية الأبعاد. مع هذه الخوارزميات المتقدمة، أصبح لزاماً ومن الأهمية بمكان أن تكون آلات الحوسبة قوية جدا وذات مواصفات تقنية عالية لتكون قادرة على تدريب عملاء بهذا الذكاء الاصطناعي. وقد خلق هذا حاجزا ضد الباحثين والمطورين أصحاب القدرات الحاسوبية منخفضة إلى متوسطة المدى. ولذلك فقد مهدت هذه القيود الطريق لتطوير تقنيات تحسين ورفع كفاءة والتي بدورها تقلل من الاعتماد على القوة الحاسوبية الكبيرة دون المساس بأداء التعلم. هذه الأطروحة تقدم خطوة معالجة استباقية والتي يمكن أن تبسط واحدة من الخوارزميات الأساسية في التعليم العميق المعزز والممثلة بشبكة كيو العميقة مما أدى إلى بناء نموذج أبسط. وقد أظهر هذا النموذج جنبا إلى جنب مع التقنية المقترحة الجديدة نتائج واعدة مع وقت تدريب أقل وتحسن في الأداء مقارنة بالنموذج الأصلي. علاوة على ذلك، فقد أظهرت التجارب قابلية تطبيق التقنية المقترحة على نماذج مطورة من شبكة كيو العميقة كشبكة كيو العميقة الثنائية وشبكة كيو العميقة المتبارزة مما أدى إلى تحسن أداء هذه النماذج وخفض الوقت المطلوب لتدريبها.

English Abstract

Artificial Intelligence (AI) is considered one of the hottest and fastest developing areas in Computer Science. Researchers from different disciplines have been trying to understand the human intelligence and transfer such ability to machines. The advancement in technology along with the novelties of proposed algorithms have allowed researchers to achieve breakthroughs throughout the years from defeating the world grandmaster in chess by deep blue to the more recent and ground-breaking defeat of the world champion of the Chinese Go game by a computer. These recent achievements have been made possible with a new technique that merges between two well-established fields in AI and Machine Learning (ML): Reinforcement Learning (RL) and Deep Learning (DL). This astute merger resulted in the fast-evolving field of Deep Reinforcement Learning (DRL). This new set of algorithms has the ability to use the advancements in DL field to develop feature approximators that aid the learning process of RL using high-dimensional imagery inputs. With such advancements, it became mandatory to have very powerful computing machines for the training of intelligent agents, creating a barrier against researchers and developers with low to mid-range computing power capabilities. Therefore, these restrictions pave the way for developing optimization techniques that reduce the dependency on considerable power without compromising the learning performance. This thesis introduces a preprocessing step that can simplify one of the baseline DRL algorithms commonly known as Deep Q-Network (DQN). This preprocessing step will lead to a simpler model architecture. This architecture combined with the new proposed technique has shown promising results with faster training time and enhanced performance when compared to the original DQN model. Furthermore, the experiments have shown that the proposed technique can be implemented on improved DQN models such as Double DQN (DDQN) and Dueling DQN leading to an improved performance and reduction in training time.

Item Type: Thesis (Masters)
Subjects: Computer
Research > Information Technology
Department: College of Computing and Mathematics > Information and Computer Science
Committee Advisor: Ghouti, Lahouari
Committee Members: Al-Khatib, Wasfi and Zhioua, Sami
Depositing User: ANAS AL BAGHAJATI (g200832160)
Date Deposited: 27 Feb 2018 12:31
Last Modified: 31 Dec 2020 06:48
URI: http://eprints.kfupm.edu.sa/id/eprint/140653