อีกงานหนึ่งในการวิเคราะห์เชิงคาดการณ์ คือการจำแนกข้อมูลใหม่โดยทำนายสิ่งที่เรียนในกลุ่มเป้าหมายของข้อมูลให้กับชุดของตัวแปรอิสระ คุณสามารถจัดกลุ่มลูกค้าตามประเภทได้เช่นลูกค้าที่มีมูลค่าสูงลูกค้าปกติหรือลูกค้าที่พร้อมจะเปลี่ยนไปใช้คู่แข่งโดยใช้โครงสร้างการตัดสินใจ
เมื่อต้องการดูข้อมูลที่เป็นประโยชน์เกี่ยวกับรูปแบบ R Classification ให้พิมพ์รหัสต่อไปนี้:
>> บทสรุป (รุ่น) โหมดความยาวชั้น 1 BinaryTree S4คอลัมน์ Class จะบอกคุณว่าคุณได้สร้างโครงสร้างการตัดสินใจแล้ว คุณสามารถพิมพ์ชื่อของตัวแปรที่คุณกำหนดให้กับโมเดลได้ในกรณีนี้: >> model ต้นไม้อนุมานแบบมีเงื่อนไขที่มี 6 เทอร์มินัลโหนดการตอบสนอง: seedType อินพุท: ปริมณฑล, ความหนาแน่น, ความยาว, ความกว้าง, ความไม่สมดุล, ความยาว 2 จำนวนการสังเกต: 147 1) พื้นที่ <= 16. 2; เกณฑ์ = 1, สถิติ = 123. 423 2) พื้นที่ <= 13. 37; => น้ำหนัก = = 1, สถิติ = 63 549 3) ความยาว 2 4. 914 5) * น้ำหนัก = 45 2) พื้นที่> 13. 37 6) ความยาว 2 5. 396 8) * น้ำหนัก = 8 1) พื้นที่> 16 2 9) ความยาว 2 5. 877 11) * weights = 40
ยิ่งดีคุณสามารถเห็นภาพแบบจำลองได้ด้วยการสร้างพล็อตของโครงสร้างการตัดสินใจด้วยรหัสนี้:> plot (model)
นี่คือการแสดงภาพกราฟิกของโครงสร้างการตัดสินใจ คุณสามารถเห็นได้ว่าเลียนแบบรูปร่างโดยรวมของต้นไม้จริง ทำจาก
โหนด(วงกลมและสี่เหลี่ยมผืนผ้า) และ ลิงก์ หรือ ขอบ (เส้นเชื่อมต่อ) โหนดแรก (เริ่มจากด้านบน) เรียกว่า โหนดราก
และโหนดที่ด้านล่างของต้นไม้ (รูปสี่เหลี่ยมผืนผ้า) เรียกว่า โหนดปลายทาง มีโหนดตัดสินใจ 5 โหนดและโหนดปลายทาง 6 โหนด
เริ่มต้นที่โหนดรากซึ่งเป็นโหนด 1 (ตัวเลขจะปรากฏในสี่เหลี่ยมขนาดเล็กที่ด้านบนของวงกลม) พิจารณาจากแอตทริบิวต์: สังเกตการณ์ # 2 น้อยกว่าหรือเท่ากับ (แสดงด้วย <=) 162? คำตอบคือใช่เพื่อย้ายไปตามเส้นทางไปยังโหนด 2.
ที่โหนด 2 แบบจำลองจะถามว่า: คือพื้นที่ 13. 37 หรือไม่? คำตอบคือใช่แล้วเดินไปตามเส้นทางไปยังโหนด 6. ที่โหนดนี้แบบจำลองจะถามว่า: length2 <= 5. 396 หรือไม่? มันเป็นและคุณย้ายไปที่โหนดขั้ว 7 และคำตัดสินคือข้อสังเกต # 2 เป็นชนิดของเมล็ดพันธุ์ที่ 1 และในความเป็นจริงคือเมล็ดพันธุ์ที่ 1
-
แบบจำลองทำกระบวนการดังกล่าวสำหรับการสังเกตอื่น ๆ เพื่อทำนาย ชั้นเรียน
-
หากต้องการทราบว่าคุณได้รับการฝึกอบรมเป็นแบบอย่างที่ดีหรือไม่ให้ตรวจสอบกับข้อมูลการฝึกอบรม คุณสามารถดูผลลัพธ์ในตารางที่มีรหัสต่อไปนี้: >> ตาราง (predict (model), trainSet $ seedType) 1 2 3 1 45 4 3 2 3 47 0 3 1 0 44
ผลการวิจัยพบว่า ข้อผิดพลาด (หรืออัตราการจำแนกประเภท) เป็น 11 ใน 147 หรือ 7. 48 เปอร์เซ็นต์
-
เมื่อคำนวณผลลัพธ์แล้วขั้นตอนต่อไปคือการอ่านตาราง
การคาดคะเนที่ถูกต้องคือตัวเลขที่แสดงคอลัมน์และแถวเหมือนกัน ผลลัพธ์เหล่านี้แสดงเป็นเส้นทแยงมุมตั้งแต่มุมบนซ้ายไปด้านล่างขวา ตัวอย่างเช่น [1, 1], [2, 2], [3, 3] คือจำนวนการคาดคะเนที่ถูกต้องสำหรับชั้นนั้น
ดังนั้นสำหรับเมล็ดพันธุ์ที่ 1 แบบจำลองทำนายได้ถูกต้อง 45 ครั้งในขณะที่จำแนกเมล็ดผิด 7 ครั้ง (4 ครั้งตามชนิดของเมล็ด 2 และ 3 ครั้งตามชนิดที่ 3) สำหรับเมล็ดพันธุ์ที่ 2 แบบจำลองทำนายได้อย่างถูกต้อง 47 ครั้งในขณะที่จัดหมวดหมู่ไม่ถูกต้อง 3 ครั้ง สำหรับเมล็ดพันธุ์ที่ 3 แบบจำลองได้อย่างถูกต้องทำนายได้ 44 ครั้งในขณะที่จัดหมวดหมู่ไม่ถูกต้องเพียงครั้งเดียว
-
นี่แสดงให้เห็นว่านี่เป็นโมเดลที่ดี ดังนั้นตอนนี้คุณประเมินด้วยข้อมูลการทดสอบ นี่คือโค้ดที่ใช้ข้อมูลการทดสอบทำนายและเก็บไว้ในตัวแปร (testPrediction) เพื่อใช้ในภายหลัง: >> testPrediction <- predict (model, newdata = testSet)
เพื่อประเมินว่าโมเดลดำเนินการกับ ทดสอบข้อมูลดูข้อมูลในตารางและคำนวณข้อผิดพลาดโดยที่โค้ดมีลักษณะดังนี้ >> table (testPrediction, testSet $ seedType) testPrediction 1 2 3 1 23 2 1 2 1 19 0 3 1 0 17