Towards Providing Hadoop Storage and Computing as Services

Towards Providing Hadoop Storage and Computing as Services. Masters thesis, King Fahd University of Petroleum and Minerals.

[img]
Preview
PDF
ShawqiAlmulaiki_Master_Thesis_Eprint.pdf

Download (2MB) | Preview

Arabic Abstract

تُوصف البيانات الضخمة (Big Data) بأنها بيانات كبيرة جداً في الحجم ومخزنة بشكل غير منظم و يستمر حجمها بالتزايد بشكل سريع جداً. يتطلب معالجة هذا النوع من البيانات نوعاً خاصاً من حلول قواعد البيانات والتي تستطيع التعامل مع الخصائص المُمَيزة لهذه البيانات. الحل الأشهر على الإطلاق لمعالجة البيانات الضخمة هو هادوب (Hadoop). البنية الهيكلية لهذا الحل تقوم على فكرة دمج وحدتي التخزين والحوسبة معاً بحيث يرتبطان ويتواجدان في كل مكون من مكونات الحل، وهو بهذه التركيبة يُعرف بنموذج هادوب الأساسي. لكن ما يعيب هذا النموذج هو أن الترابط بين وحدتي التخزين والحوسبة يجعل هادوب حلاً جامدًا وغير مرن وغير فعال في استخدام الموارد. نحن الآن في عصر الخدمات السحابية والتي تتطلب حلاً مرناً يستجيب للطلبات والأوامر المختلفة في نفس الوقت، لذا فإننا في هذا البحث نقترح نموذجًا بنيوياً مختلفاً لهادوب يتم فيه فصل الترابط بين وحدات التخزين والحوسبة. هذا الفصل يجعل النموذج المقترح مرناً وذو كفاءة أكبر في استخدام موارد التخزين والحوسبة. لتقييم أداء النموذج المقترح ، قمنا بمقارنته بالنموذج الأساسي لهادوب، واستنادًا إلى نتائج تجارب التقييم ، كان النموذج المقترح أفضل وبالأخص في معالجة نوع التطبيقات التي تستنزف مورد وحدة المعالجة المركزية أو تلك التي تتطلب عمليات قراءة وكتابة وبشكل مركز على وحدة التخزين. بالإضافة إلى الميزات العديدة لتبني نموذج هادوب المقترح ، قمنا أيضًا بتقييم الكُلفة العامة في أداء هادوب والتي يسببها تطبيق هذا النموذج.

English Abstract

Big data is huge, unstructured, and rapidly generated. Handling big data requires a special type of database solution to deal with such characteristics. The Hadoop framework is the prominent solution to big data. In the default architecture of Hadoop (also known as native model), the storage and computing modules are colocated. This condition makes Hadoop rigid, inelastic, and inefficient in resource utilization. An elastic solution that can respond to different demands in real time is a prerequisite for any cloud service. In this work, we propose another architectural model in which storage and computing modules are decoupled. Such decoupling makes the proposed architecture flexible, elastic, and efficient in terms of resource utilization. To evaluate the performance of the proposed model, we compared it with the native model. Based on the evaluation experiments, the proposed model performed better for I/O- and CPU-bound workloads. In addition to the features gained, we also evaluated the overhead of the proposed model.

Item Type: Thesis (Masters)
Subjects: Computer
Department: College of Computing and Mathematics > Information and Computer Science
Committee Advisor: AZZEDIN, FARAG
Committee Members: ALSHAYEB, MOHAMMAD and ZHIOUA, SAMI
Depositing User: SHAWQI ALMULAIKI (g201306950)
Date Deposited: 19 Sep 2018 05:37
Last Modified: 30 Dec 2020 13:09
URI: http://eprints.kfupm.edu.sa/id/eprint/140730