วีดีโอ: RapidMiner Tutorial Modeling (Cross Validation) 2024
บางครั้งการเรียนรู้ด้วยเครื่องต้องการว่าคุณจะต้องใช้การตรวจสอบข้าม ปัญหาที่เห็นได้ชัดเกี่ยวกับการแยกชุดรถไฟ / ชุดทดสอบคือความจริงที่คุณนำเสนอในการทดสอบเนื่องจากคุณลดขนาดข้อมูลการฝึกอบรมในตัวอย่างของคุณ เมื่อคุณแยกข้อมูลของคุณคุณอาจจะรักษาตัวอย่างที่เป็นประโยชน์บางส่วนออกมาจากการฝึกอบรม นอกจากนี้บางครั้งข้อมูลของคุณก็ซับซ้อนมากเช่นกันซึ่งชุดทดสอบดูเหมือนจะคล้ายคลึงกับชุดฝึกอบรม แต่ก็ไม่เหมือนกันจริงๆเนื่องจากการรวมกันของค่าต่างกัน (ซึ่งเป็นแบบอย่างของชุดข้อมูลมิติข้อมูลขนาดใหญ่)
ปัญหาเหล่านี้จะเพิ่มความไม่แน่นอนของผลการสุ่มตัวอย่างเมื่อคุณไม่มีตัวอย่างมากมาย ความเสี่ยงของการแยกข้อมูลของคุณด้วยวิธีที่ไม่เอื้ออำนวยก็อธิบายได้ว่าทำไมการแยกรถไฟ / ทดสอบจึงไม่ใช่วิธีแก้ปัญหาที่ได้รับการยอมรับจากผู้ฝึกปฏิบัติงานเครื่องเมื่อคุณต้องประเมินและปรับแต่งโซลูชันการเรียนรู้ด้วยเครื่อง
การตรวจสอบข้ามตาม k-folds เป็นคำตอบจริงๆ ขึ้นอยู่กับการแบ่งแบบสุ่ม แต่คราวนี้แบ่งข้อมูลของคุณออกเป็นจำนวนเท่าของการพับ (ส่วนของข้อมูลของคุณ) ที่มีขนาดเท่ากัน จากนั้นแต่ละพับจะถูกจัดขึ้นในทางกลับกันเป็นชุดทดสอบและคนอื่น ๆ จะใช้สำหรับการฝึกอบรม การทำซ้ำแต่ละครั้งจะใช้การทดสอบแบบพับต่างกันเป็นข้อสอบซึ่งทำให้เกิดข้อผิดพลาดในการประมาณค่า
ทำงานได้ดีไม่ว่าจะเป็นจำนวนตัวอย่างเนื่องจากการเพิ่มจำนวนพับที่ใช้งานจริงคุณจะเพิ่มขนาดชุดฝึกซ้อมของคุณ (ใหญ่ขึ้น, ชุดฝึกซ้อมขนาดใหญ่, ลดอคติ) และลดขนาดของชุดทดสอบ
- ความแตกต่างในการกระจายสำหรับแต่ละพับไม่สำคัญเท่าไหร่ เมื่อพับมีการแจกแจงที่แตกต่างกันเมื่อเทียบกับชุดอื่น ๆ ก็ใช้เพียงครั้งเดียวเป็นชุดทดสอบและผสมกับคนอื่น ๆ ซึ่งเป็นส่วนหนึ่งของชุดฝึกในระหว่างการทดสอบที่เหลือ
- คุณกำลังทดสอบข้อสังเกตทั้งหมดอยู่เสมอดังนั้นคุณจึงทดสอบสมมติฐานการเรียนรู้เครื่องโดยสมบูรณ์โดยใช้ข้อมูลทั้งหมดที่คุณมี
- การคำนวณค่าเฉลี่ยของผลลัพธ์คุณสามารถคาดหวังประสิทธิภาพการคาดการณ์ได้ นอกจากนี้ส่วนเบี่ยงเบนมาตรฐานของผลลัพธ์สามารถบอกคุณได้ว่ารูปแบบที่คุณคาดหวังได้มากน้อยเพียงใดในข้อมูลที่ไม่อยู่ในกลุ่มตัวอย่างจริงๆ รูปแบบที่สูงขึ้นในการแสดงข้ามที่ผ่านการตรวจสอบจะแจ้งให้คุณทราบถึงข้อมูลที่แปรปรวนมากว่าอัลกอริทึมไม่สามารถจับภาพได้อย่างเหมาะสม
- การใช้การตรวจสอบข้าม k-fold เป็นทางเลือกที่ดีที่สุดเสมอไปเว้นแต่ว่าข้อมูลที่คุณใช้มีคำสั่งบางอย่างที่สำคัญ ตัวอย่างเช่นอาจเป็นช่วงเวลาเช่นการขาย ในกรณีนี้คุณไม่ควรใช้วิธีสุ่มตัวอย่าง แต่แทนที่จะพึ่งพาการแยกรถไฟ / ทดสอบตามลำดับเดิมเพื่อให้คำสั่งซื้อได้รับการเก็บรักษาไว้และคุณสามารถทดสอบตัวอย่างสุดท้ายของชุดคำสั่งที่สั่งซื้อได้