AUTOMATIC SEMANTIC ANNOTATION OF IMAGES USING CONTENT-BASED AND TEXT-BASED APPROACHES

AUTOMATIC SEMANTIC ANNOTATION OF IMAGES USING CONTENT-BASED AND TEXT-BASED APPROACHES. Masters thesis, King Fahd University of Petroleum and Minerals.

[img]
Preview
PDF
MS_THESIS_FAHIM_CS_201206040.pdf

Download (9MB) | Preview

Arabic Abstract

الوصف الدلالي التلقائي للصور الرقمية هو عملية إستخلاص البيانات الوصفية للصورة في شكل كتابة توضيحية أو كلمات رئيسية وهى عملية هامة جدا لتيسير الفهرسة والبحث في قاعدة البيانات الكبيرة عن الصور. في هذا البحث، اقترحنا إطار للوصف الدلالي التلقائي للصورالرقمية وقمنا بإستكشاف فعالية إستخدام هذا الإطارلإستخلاص المعلومات الخاصة بالصور بناءا" على كلا من محتوى الصورة والنص المحيط بها. تم إستخراج المعلومات من محتوى الصورة بإستخدام الشبكات العصبية التلافيفية، في حين تم إستخلاص الكلمات الممثلة للصورة من النص المحيط بها بواسطة ناقلات تضمين الكلمة. تم عمل مزيد من المعالجة لكل من طريقتى الوصف الدلالي فى الإطار المقترح بإستخدام الشبكات العصبية المتكررة وذلك لإستخلاص جمل تصف الصورة بدقة عالية. النتائج الأولية لتقيم الإطار المقترح تظهر بأنها واعده بل افضل مقارنة مع نظم الوصف الدلالي الحديثة الأخرى المستخدمة في وصف الصور الموجودة فى قواعد بيانات إخبارية. يمكن أيضا تمثيل الوصف الدلالي للصورة في شكل RDF مما يجعل عملية كتابة اسئلة الإستعلام عن الصور أكثر تعبيرا وخاصة مع تعدد المصادر.

English Abstract

Automatic semantic annotation of images is the process of assigning metadata in the form of captioning or keywords to a digital image. This is an important process for indexing and searching of images in a big database. In this thesis, we proposed Automatic Semantic Annotation of Images (ASAI) framework and explored the effectiveness of using it to extract the semantic annotation of images based on both pixels of the image and its surrounding text. The information from image pixels is extracted by convolutional neural networks, while words in the surrounding text are represented by word embedding vectors. Both modalities are further processed using recurrent neural networks with LSTM cells with attention mechanism to generate an annotation sentence that describes the image. Empirical evaluations of the proposed framework using news dataset show promising performance results and are comparable to the results of recent image annotation systems. The produced semantic image annotations in free-text format can be further converted into structured RDF format that enables more expressive query across a diverse source of images.

Item Type: Thesis (Masters)
Subjects: Computer
Research > Information Technology
Department: College of Computing and Mathematics > Information and Computer Science
Committee Advisor: El-Basuny, Tarek Helmy
Committee Members: Mahmoud, Sabri Mahmoud and Hassan, Md. Rafiul Hassan
Depositing User: FAHIM DJATMIKO (g201206040)
Date Deposited: 04 Feb 2018 06:32
Last Modified: 30 Dec 2020 13:19
URI: http://eprints.kfupm.edu.sa/id/eprint/140625