วีดีโอ: [5-2] การสร้าง Schema และ data model และการสร้าง Index 2024
คุณต้องการสร้างรูปแบบการวิเคราะห์เชิงคาดการณ์ที่คุณสามารถประเมินได้โดยใช้ผลลัพธ์ที่ทราบ ในการทำเช่นนี้เราจะแบ่งข้อมูลของเราออกเป็นสองชุด: หนึ่งสำหรับการฝึกอบรมรูปแบบและหนึ่งสำหรับการทดสอบรูปแบบ การแยกการฝึกอบรมและชุดทดสอบออกเป็น 70/30 ก็เพียงพอแล้ว สองบรรทัดถัดไปของรหัสคำนวณและเก็บขนาดของแต่ละชุด: >> trainSize testSize <- nrow (autos) - trainSize
เมื่อต้องการส่งออกค่าให้พิมพ์ชื่อของตัวแปรที่ใช้เก็บค่าและ กดปุ่มตกลง. นี่คือผลลัพธ์:
รหัสนี้กำหนดขนาดของชุดข้อมูลที่คุณตั้งใจจะทำการฝึกอบรมและชุดข้อมูลทดสอบของเรา คุณยังไม่ได้สร้างชุดเหล่านี้เลย นอกจากนี้คุณไม่ต้องการเพียงแค่เรียก 279 ข้อสังเกตแรกชุดฝึกและเรียก 119 ข้อสังเกตชุดทดสอบ ซึ่งจะสร้างโมเดลที่ไม่ดีเนื่องจากชุดข้อมูลปรากฏขึ้นตามคำสั่ง โดยเฉพาะคอลัมน์ modelyer ได้รับคำสั่งจากเล็กที่สุดไปจนถึงใหญ่ที่สุด
หนักกว่า
มีแปดสูบ
-
มี การเคลื่อนย้ายที่ใหญ่กว่า
-
-
มีแรงม้ามากขึ้น
โอเคเห็นได้ชัดว่าหลายคนรู้อะไรเกี่ยวกับรถยนต์ดังนั้นการคาดเดาเกี่ยวกับความสัมพันธ์จะไม่ถูกเบี่ยงเบนไปมากเกินไปหลังจากที่คุณเห็นข้อมูล คนที่มีความรู้เกี่ยวกับรถยนต์เป็นจำนวนมากอาจรู้จักข้อมูลนี้แล้วโดยไม่ได้ดูข้อมูล -
นี่เป็นเพียงตัวอย่างง่ายๆของโดเมน (รถยนต์) ที่หลาย ๆ คนสามารถใช้ได้ หากเป็นข้อมูลเกี่ยวกับโรคมะเร็ง แต่คนส่วนใหญ่จะไม่เข้าใจในสิ่งที่แต่ละแอตทริบิวต์หมายถึงทันที
นี่คือที่ซึ่งผู้เชี่ยวชาญด้านโดเมนและผู้สร้างแบบจำลองข้อมูลมีความสำคัญต่อกระบวนการสร้างโมเดล ผู้เชี่ยวชาญด้านโดเมนอาจมีความรู้ดีที่สุดว่าแอตทริบิวต์ใดที่มีความสำคัญมากที่สุด (หรือน้อยที่สุด) และคุณลักษณะที่สัมพันธ์กันอย่างไร
พวกเขาสามารถแนะนำให้ผู้สร้างแบบจำลองข้อมูลซึ่งตัวแปรที่จะทดลองด้วย พวกเขาสามารถให้น้ำหนักที่ใหญ่กว่าถึงคุณลักษณะที่สำคัญมากขึ้นและ / หรือน้ำหนักที่น้อยกว่าสำหรับคุณลักษณะที่มีความสำคัญน้อยที่สุด (หรือลบออกทั้งหมด)
ดังนั้นคุณต้องสร้างชุดข้อมูลการฝึกอบรมและชุดข้อมูลทดสอบที่เป็นตัวแทนของชุดทั้งหมดอย่างแท้จริง วิธีหนึ่งในการทำเช่นนี้คือการสร้างชุดฝึกอบรมจากการสุ่มเลือกข้อมูลทั้งหมดนอกจากนี้คุณต้องการให้การทดสอบนี้สามารถทำซ้ำได้เพื่อให้คุณสามารถเรียนรู้จากตัวอย่างเดียวกันได้
ตั้งค่าเมล็ดพันธุ์สำหรับเครื่องกำเนิดไฟฟ้าแบบสุ่มดังนั้นเราจะมีชุดฝึกอบรม "แบบสุ่ม" แบบเดียวกัน รหัสต่อไปนี้จะทำงาน: >> set (123)> training_indices <- ตัวอย่าง (seq_len (nrow (autos)), size = trainSize) trainSet testSet <- autos [-training_indices,]
ชุดการฝึกอบรมประกอบด้วย 279 ข้อสังเกตพร้อมกับผลลัพธ์ (mpg) ของการสังเกตแต่ละครั้ง อัลกอริทึมการถดถอยใช้ผลลัพธ์ในการฝึกแบบจำลองโดยดูที่ความสัมพันธ์ระหว่างตัวแปรพยากรณ์ (คุณลักษณะใด ๆ ในเจ็ด) และตัวแปรตอบสนอง (mpg)
ชุดทดสอบประกอบด้วยส่วนที่เหลือของข้อมูล (นั่นคือส่วนที่ไม่รวมอยู่ในชุดฝึกอบรม) คุณควรสังเกตด้วยว่าชุดทดสอบยังประกอบด้วยตัวแปรตอบกลับ (mpg) ด้วยเมื่อคุณใช้ฟังก์ชันทำนาย (จากแบบจำลอง) กับชุดทดสอบจะไม่สนใจตัวแปรการตอบสนองและจะใช้เฉพาะตัวแปรพยากรณ์เท่านั้นหากชื่อคอลัมน์เหมือนกันกับชุดการฝึกอบรม
เมื่อต้องการสร้างแบบจำลองการถดถอยเชิงเส้นที่ใช้แอตทริบิวต์ mpg เป็นตัวแปรตอบกลับและตัวแปรอื่น ๆ ทั้งหมดเป็นตัวแปร predictor ให้พิมพ์ในบรรทัดต่อไปนี้: >> model