A Keyphrase Extraction Algorithm and its Potential on Arabic

A Keyphrase Extraction Algorithm and its Potential on Arabic. Masters thesis, King Fahd University of Petroleum and Minerals.

[img]
Preview
PDF (A Keyphrase Extraction Algorithm and its Potential on Arabic)
Mohammed_Al-Logmani_Thesis.pdf - Accepted Version

Download (3MB) | Preview

Arabic Abstract

تُظهِر العبارات المفتاحية في مستند ما المواضيع الأساسية المناقشة في ذلك المستند. ونظراً لعدم توفر العبارات المفتاحية في الكثير من مراكز المحتوى الرقمي، فقد أصبحت الحاجة ملحة إلى خوارزميات عالية الكفاءة لاستخراج العبارات المفتاحية. تهدف برمجيات استخراج العبارات المفتاحية آليا إلى الاستفادة من التقدم في الحوسبة من حيث السرعة والكفاءة لحساب حل مشاكل استكشاف واستخدام العبارات المفتاحية دون التكاليف )في الجهد والوقت( المرتبطة بعمل البشر في تصنيف المستندات. ندرس في هذا العمل البحثي بعضا من السمات التي يمكن استخدامها لتحسين جودة استخراج العبارات المفتاحية وتطبيقها على خوارزمية تدعى "خوارزمية استخراج العبارات المفتاحية". ونجري أيض ا دراسة تحليلية للخوارزمية المحسنة مقارنة مع بعض الخوارزميات المستخدمة في نفس المجال. ونستخدم في هذه الدراسة التحليلية مجموعتين من مجموعات البيانات. تحوي الأولى مستندات تمثل أبحاثا علمية باللغة الإنجليزية. بينما تحوي الثانية مستندات أنشأناها كجزء من هذا العمل تمثل وثائق باللغة العربية.

English Abstract

Keyphrases are phrases that express the main topics discussed in a given document. Due to the unavailability of keyphrases in a large amount of digital content, the need for efficient Automatic Keyphrase Extraction algorithms has risen. Automatic Keyphrase Extraction aims to utilize the advancement in computation power and speed to resolve the problems of discoverability and assigning keyphrases without the costs (in efforts and time) associated with human indexers. In this research work, we studied some of the features that can be used to enhance the quality of extracted keyphrases and applied them on an algorithm called Keyphrase Extraction Algorithm (KEA). In addition, we carried out an analysis study for the enhanced KEA along with other state-of-the-art algorithms. The evaluation showed some enhancement. The evaluation effort is conducted using two datasets. The first one contains scientific papers from the research world. The second dataset, which contains documents in Arabic, is created as part of this work.

Item Type: Thesis (Masters)
Subjects: Computer
Department: College of Computing and Mathematics > Information and Computer Science
Committee Advisor: Al-Muhtaseb, Husni
Committee Members: Ahmed, Moataz and Al-Khatib, Wasfi
Depositing User: AL-LOGMANI SULIMAN (g200404560)
Date Deposited: 08 Jan 2014 16:43
Last Modified: 01 Nov 2019 15:40
URI: http://eprints.kfupm.edu.sa/id/eprint/139051