ก่อนที่คุณจะสามารถดึงข้อมูลตัวจำแนกประเภท Support Vector Machine (SVM) เข้ากับข้อมูลที่โหลดสำหรับการวิเคราะห์เชิงคาดการณ์คุณต้องแบ่งข้อมูลทั้งหมดลงในชุดการฝึกอบรมและ ชุดทดสอบ
โชคดีที่ scikit-learn ได้ใช้ฟังก์ชันที่จะช่วยให้คุณสามารถแบ่งข้อมูลแบบเต็มได้อย่างง่ายดาย ฟังก์ชั่น train_test_split ใช้เป็นข้อมูลชุดเดียวและค่าร้อยละ ค่าเปอร์เซ็นต์จะใช้เพื่อกำหนดขนาดของชุดทดสอบ ฟังก์ชันจะส่งคืนชุดข้อมูลสองชุด: ชุดข้อมูลทดสอบ (มีขนาดระบุ) และชุดข้อมูลการฝึกอบรม (ซึ่งใช้ข้อมูลที่เหลืออยู่)
พิมพ์รหัสต่อไปนี้เพื่อแบ่งชุดข้อมูลของคุณ: >>>> จากการนำเข้า cross_validation ของ sklearn >>> X_train, X_test, y_train, y_test = cross_validation train_test_split (ข้อมูลม่านตา, ไอริสเป้าหมาย, test_size = 0, 10, random_state = 111)ไลบรารีการตรวจสอบข้ามการนำเข้าบรรทัดแรกเข้าสู่เซสชันของคุณ บรรทัดที่สองสร้างชุดทดสอบจากร้อยละ 10 ของกลุ่มตัวอย่าง
x_train จะมีการสังเกต 135 จุดและคุณสมบัติต่างๆ
y_train จะมี 135 ป้ายกำกับอยู่ในลำดับเดียวกับข้อสังเกต 135x_test จะมีข้อสังเกต 15 (หรือ 10 เปอร์เซ็นต์) และคุณลักษณะต่างๆ
y_test จะมี 15 ป้ายกำกับอยู่ในลำดับเดียวกับข้อสังเกตที่ 15
รหัสต่อไปนี้จะยืนยันว่าการแบ่งเป็นสิ่งที่คุณคาดหวัง:
>>>> X_train รูปร่าง (135, 4) >>> y_train รูปร่าง (135,) >>> X_test. รูปร่าง (15, 4) >>> y_test รูปร่าง (15,)
คุณสามารถดูได้จากการส่งออกว่ามี 135 ข้อสังเกตที่มี 4 คุณสมบัติและ 135 ป้ายในชุดฝึกซ้อม ชุดทดสอบมี 15 ข้อสังเกตโดยมี 4 คุณสมบัติและ 15 ป้าย
ผู้เริ่มต้นจำนวนมากในด้านการวิเคราะห์คาดการณ์ลืมแบ่งข้อมูล - ซึ่งแนะนำข้อบกพร่องด้านการออกแบบที่ร้ายแรงในโครงการ ถ้ามีการโหลด 150 อินสแตนซ์ทั้งหมดลงในเครื่องเป็นข้อมูลการฝึกอบรมจะไม่มีข้อมูลที่มองไม่เห็นสำหรับทดสอบโมเดล จากนั้นคุณจะต้องรีสอร์ตการฝึกอบรมบางส่วนเพื่อทดสอบรูปแบบการทำนายคุณจะเห็นว่าในสถานการณ์เช่นนี้โมเดลจะคาดคะเนระดับที่ถูกต้องเสมอเพราะคุณใช้ข้อมูลที่แน่นอนเหมือนกันที่คุณใช้ในการฝึกแบบจำลองรูปแบบได้เห็นรูปแบบนี้มาก่อนแล้ว จะไม่มีปัญหาเพียงแค่ทำซ้ำสิ่งที่เห็น รูปแบบการคาดการณ์การทำงานจำเป็นต้องทำการคาดการณ์ข้อมูลที่ยังไม่เคยเห็น
เมื่อคุณมีตัวอย่างของตัวจำแนกประเภท SVM ชุดข้อมูลการฝึกอบรมและชุดข้อมูลทดสอบคุณพร้อมที่จะฝึกแบบจำลองด้วยข้อมูลการฝึกอบรมแล้ว การพิมพ์รหัสต่อไปนี้ลงในล่ามจะทำตรงนั้น: >>>> svmClassifier พอดี (X_train, y_train)
บรรทัดของรหัสนี้จะสร้างรูปแบบการทำงานที่จะทำให้การคาดการณ์จาก โดยเฉพาะอย่างยิ่งรูปแบบการทำนายที่จะทำนายสิ่งที่ชั้นของไอริสเป็นชุดข้อมูลที่ไม่มีป้ายกำกับใหม่เป็นของ อินสแตนซ์ svmClassifier จะมีหลายวิธีที่คุณสามารถเรียกใช้เพื่อทำสิ่งต่างๆ
ตัวอย่างเช่นหลังจากเรียกใช้เมธอดแบบพอดีวิธีที่มีประโยชน์ที่สุดในการโทรคือวิธีคาดการณ์ นั่นคือวิธีที่คุณจะป้อนข้อมูลใหม่ ในทางกลับกันก็คาดการณ์ผล