On learning better decision trees

(1996) On learning better decision trees. Masters thesis, King Fahd University of Petroleum and Minerals.

[img]
Preview
PDF
9610.pdf

Download (3MB) | Preview

Arabic Abstract

تتبع خوارزمية “ ID3” أسلوب التقسيم من الأعلى إلى الأسفل لبناء شجرات القرار من أمثلة معطاة ، وتولد الخوارزمية شجرات قرار محدودة المثالية كونها تعتمد على احصاءات تقديرية في عملية توليد الشجرات . تعرض في هذه الدراسة أسلوبين جديدين لتحسين مستوى جودة الشجرة المبنية عن طريق تقليل معدل كلفة تصنيف الأمثلة وزيادة مستوى دقة تصنيف الحالات الجديدة . ويسمى الأسلوب الأول أسلوب تعديل الأوزان بينما يسمى الثاني أسلوب التطوير المتتابع . يقوم الأسلوب الأول على أساس اعطاء وزن لكل مثال بقيمة حقيقية موجبة ، ومن ثم تعديل هذا الوزن بشكل متكرر وبطيء ، حيث تتغير القيم التي تحصل عليها السمات أثناء اختيارها ، وبالتالي يتم بناء شجرة قرار أعلى جودة . ومن ناحية أخرى يقوم الأسلوب الثاني على أساس استخدام طريقة جديدة لاختيار السمات ، بحيث يجمع بين فوائد استخدام قيمة الفائدة المعلوماتية المستخدمة في خوارزمية “ ID3 “ والمحسوبة من الأمثلة مع قيمة الأهمية لكل سمة والتي تعتمد على عدد الأمثلة التي تصنفها السمة في الشجرة السابقة . وتشير نتائج التجارب التي تم اجراؤها على كلا الأسلوبين إلا أن أسلوب التطوير المتتابع قد حقق نتائج أكثر أهمية من أسلوب تعديل الأوزان مقارنة مع خوارزمية “ ID3 “ .

English Abstract

The ID3 algorithm follows a top-down approach to learn decision trees from examples. It generates sub-optimal tress because it is based on heuristics. In this thesis, we propose two approaches aimed at improving the quality of the generated decision tree in terms of the average classification cost to classify a case and the generalization performance of the tree. The first approach, called the weight adjustment approach, is based on the idea of assigning weights to the examples and adjusting these weigths slowly in an iterative manner in order to alter the scores of the attributes in the attribute selection process so that a better decision tree is generated. The second approach is based in a new attribute selection criterion which combines the attribute's information-gain score (as used in ID3) computed from the training examples and the importance score related to the number of examples for which the attribute plays a role during classification by the previous tree. Judging from the experiments we conducted to test our approaches, the second approach added more significant improvement than the first one over ID3.

Item Type: Thesis (Masters)
Subjects: Computer
Department: College of Computing and Mathematics > Information and Computer Science
Committee Advisor: Al-Muallim, Hussein
Committee Members: Al-Bassam, Sulaiman Abdulla and Al-Suwaiyel, M. I.
Depositing User: Mr. Admin Admin
Date Deposited: 22 Jun 2008 13:44
Last Modified: 01 Nov 2019 13:48
URI: http://eprints.kfupm.edu.sa/id/eprint/9610