Learning continuous functions using decision tree learning algorithms

(2001) Learning continuous functions using decision tree learning algorithms. Masters thesis, King Fahd University of Petroleum and Minerals.

[img]
Preview
PDF
10006.pdf

Download (2MB) | Preview

Arabic Abstract

“C4.5” هو تطبيق عملي لخوارزم “ID3” المستخدم لبناء شجرات القرار . هذا التطبيق يتعامل مع المعلومات ذات الدوال الغير متصلة ولا يتعامل مع المعلومات ذات الدوال المتصلة . هذه الدراسة تعرض أسلوبين يتم بهم تعديل تطبيق “C4.5” كي يتعامل مع المعلومات ذات الدوال المتصلة . هذان الأسلوبان هما : “C4.5” متعدد القرارات و “C4.5” متعدد الشجرات الثنائية . الأسلوب الأول يقسم المعلومات إلى مجموعات منفصلة ويعطي كل مجموعة تصنيف غير متصل هو عبارة عن متوسط قيم القرارات المتصلة الأصلية . الأسلوب الثاني يقسم المعلومات إلى مجموعتين منفصلتين ويعطي المجموعة الأولى تصنيف بقيمة "صفر" والمجموعة الثانية تصنيف بقيمة "واحد" . تقوم هذه الطريقة ببناء شجرة قرار ثنائية عند هذه النقطة . بعد ذلك يتم زيادة عدد الأمثلة في المجموعة الأولى وتصغير المجموعة الثانية ، وبناء شجرة قرار ثنائية في كل مرة . تقوم بعد ذلك هذه الشجرات بالتصويت لحساب تصنيف مثال معين . في كلا الأسلوبين يتم اختبار حجم تقسيم المجموعات واختيار الحجم الذي ينتج عنه أقل أخطاء التصنيف . دلت نتائج الاختبارات التي أجريت باستخدام ستة من أشهر قواعد البيانات أن كلا الأسلوبين حقق نتائج تفوق الأساليب المعروفة .

English Abstract

C4.5 as an implementation of a decision tree learning algorithm called ID3. C4.5 accounts for discrete classes and does not consider continuous output. The purpose of this work is to suggest two approaches to modify the C4.5 implementation to account for continuous output. These two approaches are called: Multi-Class C4.5 and Multi-Binary trees C4.5. Multi-Class C4.5 approach groups continuous output values into chunks and averages them. A discrete class replaces the class of the examples in each group. The average of the continuous classes in each group is associated to the discrete class of the group. Multi-Binary trees C4.5 approach divides the examples into chunks and builds as many decision trees as the number of chunks. The end boundary of each chunk becomes the class of the chunk. Each tree is built to indicate that the class of examples is less than or equal to the end boundary. Based on experiments conducted on six well-known domains, these two approaches show an improvement in error rates compared to other regression methods.

Item Type: Thesis (Masters)
Subjects: Computer
Department: College of Computing and Mathematics > Information and Computer Science
Committee Advisor: Al-Muallim, Hussein
Committee Members: Ahmed, Zulfiqar and Al-Bassam, Sulaiman Abdulla
Depositing User: Mr. Admin Admin
Date Deposited: 22 Jun 2008 13:54
Last Modified: 01 Nov 2019 13:54
URI: http://eprints.kfupm.edu.sa/id/eprint/10006