ในโลกที่สมบูรณ์แบบคุณสามารถทดสอบข้อมูลที่อัลกอริทึมการเรียนรู้ด้วยเครื่องของคุณไม่เคยเรียนรู้มาก่อน อย่างไรก็ตามการรอข้อมูลใหม่ไม่ได้เป็นไปได้ในแง่ของเวลาและค่าใช้จ่าย
ในฐานะวิธีง่ายๆเพียงครั้งแรกคุณสามารถสุ่มแยกข้อมูลของคุณลงในชุดฝึกอบรมและชุดทดสอบได้ ส่วนแบ่งทั่วไปคือ 25 ถึง 30 เปอร์เซ็นต์สำหรับการทดสอบและอีก 75 ถึง 70 เปอร์เซ็นต์สำหรับการฝึกอบรม คุณแบ่งข้อมูลของคุณประกอบด้วยการตอบสนองและคุณลักษณะของคุณในเวลาเดียวกันการรักษาความสอดคล้องระหว่างการตอบสนองแต่ละครั้งและคุณลักษณะต่างๆ
การรักษาครั้งที่สองเกิดขึ้นเมื่อคุณต้องการปรับแต่งอัลกอริทึมการเรียนรู้ของคุณ ในกรณีนี้ข้อมูลการแบ่งการทดสอบไม่ใช่วิธีปฏิบัติที่ดีเนื่องจากเป็นสาเหตุของการสอดแนมแบบอื่นที่เรียกว่า snooping ในการเอาชนะการสอดแนมคุณต้องแบ่งที่สามเรียกว่าชุดตรวจสอบ การแบ่งที่แนะนำคือให้ตัวอย่างของคุณแบ่งเป็น 3 ส่วนคือ 70 เปอร์เซ็นต์สำหรับการฝึกอบรม 20 เปอร์เซ็นต์สำหรับการตรวจสอบและ 10 เปอร์เซ็นต์สำหรับการทดสอบ
คุณควรทำการแยกแบบสุ่มโดยไม่คำนึงถึงการสั่งซื้อครั้งแรกของข้อมูล มิฉะนั้นการทดสอบของคุณจะไม่น่าเชื่อถือเนื่องจากการสั่งซื้ออาจทำให้ ประเมินค่าเกินกว่า (เมื่อมีการสั่งซื้อที่มีความหมาย) หรือ ต่ำกว่า (เมื่อการกระจายแตกต่างกันมากเกินไป) ในฐานะโซลูชันคุณต้องตรวจสอบให้แน่ใจว่าการกระจายชุดทดสอบไม่แตกต่างจากการแจกจ่ายการฝึกอบรมมากเกินไปและลำดับข้อมูลที่สั่งซื้อเกิดขึ้นในข้อมูลที่แยกออก
ตัวอย่างเช่นตรวจสอบว่าหมายเลขประจำตัวถ้ามีอยู่ในชุดของคุณหรือไม่ บางครั้งแม้ว่าคุณจะปฏิบัติตามอย่างเคร่งครัดโดยการสุ่มตัวอย่างคุณจะไม่สามารถได้รับการแจกแจงที่คล้ายกันระหว่างชุดโดยเฉพาะอย่างยิ่งเมื่อจำนวนตัวอย่างของคุณมีขนาดเล็ก
เมื่อจำนวนตัวอย่างของคุณสูงมากเช่น n> 10,000 คุณสามารถสร้างชุดข้อมูลแบบสุ่มแบบแยกได้อย่างมั่นใจ เมื่อชุดข้อมูลมีขนาดเล็กการเปรียบเทียบสถิติพื้นฐานเช่นค่าเฉลี่ยมัธยฐานและความแปรปรวนในการตอบสนองและคุณลักษณะต่างๆในชุดฝึกอบรมและชุดทดสอบจะช่วยให้คุณเข้าใจว่าชุดทดสอบไม่เหมาะหรือไม่ เมื่อคุณไม่แน่ใจว่าการแบ่งแบบถูกต้องให้คำนวณใหม่เพียงอย่างเดียว