Classification : Decision tree
Classification : Decision tree
เทคนิคการจำแนกประเภทข้อมูลด้วย Decision tree เริ่มพัฒนาโดย J.R.Quainlan ในปี 1993 เป็นที่นิยม เนื่องจากแปลความหมายของโมเดลได้ง่าย ซึ่งการสร้างโมเดล (Model) จะทำโดยคัดเลือกแอตทริบริวต์ (Attribute) ที่มีความสัมพันธ์กับคลาสมากที่สุด ขึ้นมาเป็นโหนดบนสุดของทรี (Root node) หลังจากนั้นจะหาแอตทริบริวต์ถัดไป โดยใช้ตัววัดที่เรียนกว่า Information Gain (IG)
เทคนิคการหากฎความสัมพันธ์ (Association rule) ด้วยวิธี Apriori พัฒนาโดย Agrawal และ Srikant ในปี 1994 หาอ่านได้จากหนังสือ An Introduction to Data Mining Techniques โดย Ph.D. Eakasit Pacharawongsakda
นิยามศัพท์ 1. IG = (parent, child) = Entropy(parent) - [p(c1) x Entropy (c1) + p(c2) x Entropy(c2) + .. ]
2. Entropy(c1) = -p(c1)log p(c1)
3. Entropy(c1) คือ ความน่าจะเป็นของค่า c1 ถ้าค่าน้อยก็จะแตกต่ากันน้อย ถ้าค่ามากก็จะแตกต่างกันมาก
4. แอตทริบริวต์ (Attribute) คือ ชื่อข้อมูล หรือแอตทริบริวต์ประเภททั่วไป เช่น Outlook, Temperature, Humanity, Windy
5. คลาส (Class) คือ แอตทริบริวต์ ที่คลาส หรือเป็นคำตอบ เช่น Play จะจัดว่าเป็นคลาสคำตอบ หรือ root node
6. โมเดลที่น่าเชื่อถือ คือ โมเดลที่มีแอตทริบริวต์ทั่วไป สัมพันธ์กับ แอตทริบริวต์ที่เป็นคลาสคำตอบ ก็จะเป้นโมเดลที่มีประสิทธิภาพ และน่าเชื่อถือ
7. Precision คือ ค่าวัดความแม่นยำของโมเดล
8. Recall คือ ค่าวัดความถูกต้องของโมเดล
9. F-measure คือ ค่าวัด Precision และ Recall
ตัวอย่างข้อมูล โดย ดร.เอกสิทธิ์ พัชรวงศ์ศักดา
NoOutlookTemperatureHumidityWindyPlay
1sunnyhothighfalseno
2sunnyhothightrueno
3overcasthothighfalseyes
4rainymildhighfalseyes
5rainycoolnormalfalseyes
6rainycoolnormaltrueno
7overcastcoolnormaltrueyes
8sunnymildhighfalseno
9sunnymindnormalfalseyes
10rainymindnormalfalseyes
11sunnymindnormaltrueyes
12overcastmindhightrueyes
13overcasthotnormalfalseyes
14rainymindhightrueno

อ่านเพิ่มที่ dataminingtrend.com
หรือที่ linkedin.com

http://goo.gl/72BPC