KFUPM ePrints

A Keyphrase Extraction Algorithm and its Potential on Arabic

l A Keyphrase Extraction Algorithm and its Potential on Arabic. Masters thesis, King Fahd University of Petroleum and Minerals.

[img]PDF (A Keyphrase Extraction Algorithm and its Potential on Arabic) - Accepted Version
Restricted to Abstract Only until 11 December 2014.

3328Kb

Arabic Abstract

تُظهِر العبارات المفتاحية في مستند ما المواضيع الأساسية المناقشة في ذلك المستند. ونظراً لعدم توفر العبارات المفتاحية في الكثير من مراكز المحتوى الرقمي، فقد أصبحت الحاجة ملحة إلى خوارزميات عالية الكفاءة لاستخراج العبارات المفتاحية. تهدف برمجيات استخراج العبارات المفتاحية آليا إلى الاستفادة من التقدم في الحوسبة من حيث السرعة والكفاءة لحساب حل مشاكل استكشاف واستخدام العبارات المفتاحية دون التكاليف )في الجهد والوقت( المرتبطة بعمل البشر في تصنيف المستندات. ندرس في هذا العمل البحثي بعضا من السمات التي يمكن استخدامها لتحسين جودة استخراج العبارات المفتاحية وتطبيقها على خوارزمية تدعى "خوارزمية استخراج العبارات المفتاحية". ونجري أيض ا دراسة تحليلية للخوارزمية المحسنة مقارنة مع بعض الخوارزميات المستخدمة في نفس المجال. ونستخدم في هذه الدراسة التحليلية مجموعتين من مجموعات البيانات. تحوي الأولى مستندات تمثل أبحاثا علمية باللغة الإنجليزية. بينما تحوي الثانية مستندات أنشأناها كجزء من هذا العمل تمثل وثائق باللغة العربية.

English Abstract

Keyphrases are phrases that express the main topics discussed in a given document. Due to the unavailability of keyphrases in a large amount of digital content, the need for efficient Automatic Keyphrase Extraction algorithms has risen. Automatic Keyphrase Extraction aims to utilize the advancement in computation power and speed to resolve the problems of discoverability and assigning keyphrases without the costs (in efforts and time) associated with human indexers. In this research work, we studied some of the features that can be used to enhance the quality of extracted keyphrases and applied them on an algorithm called Keyphrase Extraction Algorithm (KEA). In addition, we carried out an analysis study for the enhanced KEA along with other state-of-the-art algorithms. The evaluation showed some enhancement. The evaluation effort is conducted using two datasets. The first one contains scientific papers from the research world. The second dataset, which contains documents in Arabic, is created as part of this work.



Item Type:Thesis (Masters)
Subjects:Computer
Divisions:College Of Computer Sciences and Engineering > Information and Computer Science Dept
Committee Advisor:Al-Muhtaseb , Husni
Committee Members:Ahmed, Moataz and Al-Khatib, Wasfi
ID Code:139051
Deposited By:AL-LOGMANI MOHAMMED SULIMAN (g200404560)
Deposited On:08 Jan 2014 19:43
Last Modified:08 Jan 2014 19:43

Repository Staff Only: item control page