ON REINFORCEMENT LEARNING FOR QUANTITATIVE INVESTMENT VIA THE CONDITIONAL VALUE-AT-RISK

ON REINFORCEMENT LEARNING FOR QUANTITATIVE INVESTMENT VIA THE CONDITIONAL VALUE-AT-RISK. Masters thesis, King Fahd University of Petroleum and Minerals.

[img] PDF
MSc Thesis_Ali Alameer_ON REINFORCEMENT LEARNING FOR QUANTITATIVE INVESTMENT VIA THE CONDITIONAL VALUE-AT-RISK.pdf - Accepted Version
Restricted to Repository staff only until 28 April 2023.

Download (7MB)

Arabic Abstract

دائماً ما تشهد أسواق المال حراك يصعب التنبؤ به بسبب اختلاف توقع المستثمرين لحركة أسعار الأصول المالية. لذلك يمكن للشخص أن ينظر إلى أسواق المال بعين هندسية على أنها أنظمة ديناميكية ذات عشوائية متغيرة مع الزمن. يُعدّ التعلُّم المعزَّز، وهو أداة مستوحاة من نظرية التحكم الأمثل وقائمة على تعلم الآلة، نهجًا جذابًا للوصول إلى استراتيجية تحكم مثالية تحت ظل هذه الأنظمة المعقدة لأنه لا يتطلب بالضرورة معرفة ديناميكيات النظام للعثور على استراتيجية مقاربة -رياضياً- للاستراتيجية المثالية. علاوة على ذلك، فإن تطبيق التعلم المعزز مع الأخذ بعين الاعتبار "القيمة المحتملة للمخاطر" كمؤشر تراقبه الآلة الذكية يجعلها قادرة على تقييم مدى فعالية استراتيجيتها في إدارة المخاطر أثناء الاستثمار ، وكل ذلك يتم في إطار يخلو من تمثيل ديناميكية أسواق المال بنماذج رياضية. تطرح هذه الرسالة إمكانية تعَلُّم الآلة الذكية إدارة المخاطر المتعلقة بالاستثمار في أسواق المال عن طريق مراقبتها وتحكمها في "القيمة المحتملة للمخاطر" لقراراتها الاستثمارية ضمن إطار التعلم المعزز المباشر. بسبب تحدُّب الدالة الرياضية المقترحة في هذه الرسالة، يمكن لآلتنا الذكية أن تتعلم إدارة المخاطر وتطوير استراتيجياتها في ذلك من خلال تجاربها المتراكمة من غير تدخل بشري. بذلك النهج، فإننا نعزز قدرة الآلة على تعَلُّم استراتيجيات جديدة في إدارة المخاطر تتكيف مع تقلبات أسواق المال الحادة و ذلك بتكلفة حوسبية قليلة مع ميزة ضمان وصول الآلة لاستراتيجيات مثالية. في هذه الأطروحة نعرض نتائج تجربتنا بخصوص الاستثمار في أسواق مالية مختلفة لتقييم الأداء المالي لآلة تتعلم وتطور استراتيجيتها بحسب متوسط عوائدها الاستثماريه مع محاولتها تقنين "القيمة المحتملة للمخاطر" بنفس الوقت. و في المقابل قمنا بتجربة آلة أخرى تنظر فقط إلى تقليص "القيمة المحتملة للمخاطر" المتعلقة بعوائد استثماراتها. من خلال تلك التجارب، لاحظنا فعالية الآلة الأولى في تحسين عائد الاستثمار لكل وحدة قياس للخطر. على الجانب الآخر، تُظهر الآلة الثانية متانة في التعامل مع التراجعات الحادة في أسعار الأصول المالية. كل تلك الآلات الذكية المطروحه في رسالتنا أظهرت قدرة واضحة على إدارة المخاطر وبصورة أفضل عندما قُورنت مع آلة أخرى غير معنيّة بتعلم إدارة المخاطر، وذلك في ظل تجربتنا لنوعين من أنواع الاستثمارات في أسواق المال: المضاربة ، وتوزيع رأس المال على أصلين بمخاطر متفاوتة (أسهم شركات مُدْرجة وسندات حكومية). علاوة على ذلك كشفت تجربتنا أن الآلة المقترحة في هذه الرسالة يمكن أن تتفوق على أحدث آلة تداول مطروحة في الأوراق العلمية المتعلقة بالاستثمار باستخدام التعلم المعزز المباشر. أخيرًا، عمّمنا نظريًّا إمكانية الآلات الذكية المقترحة في هذه الأطروحة أن تتعلم إدارة المحافظ الاستثمارية متعددة الأصول.

English Abstract

Financial markets behave in unforeseen patterns due to the investors' anticipation of the price action of financial assets. Therefore, one can view financial markets as stochastic dynamical systems exhibiting nonstationary behavior under mathematical engineering contexts. Reinforcement Learning, a machine learning-based optimal control tool, is an attractive approach to obtaining optimal policies under such complex systems since it does not necessarily require knowledge about the system's dynamics to find an approximated optimal policy. Furthermore, leveraging Reinforcement Learning with the Conditional Value-at-Risk (CVaR) as a constitutional element in the performance index allows the agent to learn investing while dealing with implicit and explicit risks under such a model-free framework. This thesis proposes convex CVaR-based investment agents under the Direct Reinforcement Learning framework to address risks associated with investing in financial markets. Due to convexity, the proposed approach can be compatible with the incremental learning technique. With that, we enhance the agent's adaptability in managing risks within financial markets at an efficient computational cost with the merit of guaranteed policy convergence. We consider experimenting with frictional investment in various financial markets to compare a CVaR-constrained agent's financial performance against an unconstrained CVaR-sensitive one. Associated with the adaptive incremental learning approach, the CVaR-constrained agent shows potency in improving investment return per unit of risk. In contrast, the CVaR-sensitive agent exhibits robustness in handling intense financial markets pullbacks. Both CVaR agents reveal enhanced risk management compared to a risk-insensitive agent under two investment problems: single asset trading and assets allocation. Moreover, with trading a single asset, our experimentation revealed that the proposed convex CVaR-constrained agent could outperform the state-of-art Direct Reinforcement Learning trading system. We finally show how our CVaR agents are extendable to learn investing under the most general investment problem of optimizing a multi-asset portfolio.

Item Type: Thesis (Masters)
Subjects: Systems
Engineering
Department: College of Engineering and Physics > Control and Instrumentation Engineering
Committee Advisor: Alshehri, Khaled
Committee Members: Mahmoud, Magdi and Elferik, Sami
Depositing User: ALI ALAMEER (g201904230)
Date Deposited: 09 May 2022 06:43
Last Modified: 09 May 2022 06:43
URI: https://eprints.kfupm.edu.sa/id/eprint/142098