เวกเตอร์สนับสนุนเวกเตอร์ (SVM) เป็นอัลกอริทึมการวิเคราะห์ข้อมูลที่คาดการณ์ล่วงหน้า องค์ประกอบข้อมูลหนึ่งในประเภทที่มีป้ายกำกับ SVM เป็นตัวแบ่งประเภท ไบนารี ส่วนใหญ่; สมมติว่าข้อมูลที่เป็นปัญหามีค่าเป้าหมาย 2 ค่าที่เป็นไปได้
อัลกอริทึม SVM อื่น ๆ, multiclass SVM, เพิ่ม SVM เพื่อใช้เป็นตัวจําแนกในชุดข้อมูลที่มีมากกว่าหนึ่งคลาส (การจัดกลุ่มหรือหมวดหมู่) SVM ใช้งานได้หลากหลายเช่นการรับรู้ภาพการวินิจฉัยทางการแพทย์และการวิเคราะห์ข้อความ
สมมติว่าคุณกำลังออกแบบโมเดลการวิเคราะห์เชิงคาดการณ์ที่จะรับรู้และคาดเดาชื่อของวัตถุในภาพโดยอัตโนมัติ นี่เป็นปัญหาของ การรับรู้ภาพ หรือโดยเฉพาะอย่างยิ่งการจดจำใบหน้า: คุณต้องการให้ตัวจำแนกประเภทรู้จักชื่อของบุคคลในรูปภาพ
ก่อนที่จะแก้ไขปัญหาระดับความซับซ้อนดังกล่าวให้ลองใช้ปัญหาเดียวกันในรูปแบบที่เรียบง่าย: สมมติว่าคุณมีภาพของผลไม้แต่ละชิ้นและต้องการให้ผู้จำแนกประเภทของคุณทำนายว่าผลไม้ชนิดใดปรากฏในภาพ สมมติว่าคุณมีผลไม้เพียง 2 ประเภทคือแอปเปิ้ลและลูกแพร์หนึ่งเม็ดต่อภาพ
ให้ภาพใหม่คุณต้องการคาดการณ์ว่าผลไม้เป็นแอปเปิ้ลหรือลูกแพร์โดยไม่ต้องมองภาพ คุณต้องการให้ SVM จัดภาพแต่ละภาพเป็นแอปเปิ้ลหรือลูกแพร์ เช่นเดียวกับอัลกอริทึ่มอื่น ๆ ขั้นตอนแรกคือการฝึกอบรมตัวแบ่งประเภท
สมมติว่าคุณมีภาพแอปเปิ้ล 200 ภาพและลูกแพร์ 200 ภาพ ขั้นตอนการเรียนรู้ประกอบด้วยการให้อาหารภาพเหล่านั้นไปยังผู้จำแนกประเภทดังนั้นจึงเรียนรู้ว่าแอปเปิ้ลมีลักษณะเป็นอย่างไรและลูกแพร์มีลักษณะเป็นอย่างไร ก่อนจะเข้าสู่ขั้นตอนแรกนี้คุณต้องแปลงภาพแต่ละภาพให้เป็นเมทริกซ์ข้อมูลโดยใช้แพคเกจทางสถิติ R (กล่าวคือ)
อย่างที่คุณอาจจินตนาการได้แสดงภาพเป็นเมตริกซ์ของตัวเลขไม่ใช่สิ่งที่ตรงไปตรงมา พื้นที่ที่แตกต่างกันทั้งหมดของการวิจัยคือเพื่อรองรับการแสดงภาพต่อไปนี้แสดงให้เห็นว่าเครื่องเวกเตอร์สนับสนุนสามารถทำนายระดับของผลไม้ได้อย่างไร (ขึ้นอยู่กับว่าอัลกอริธึมได้เรียนรู้มาแล้วในอดีตอย่างไรบ้าง
ลูกแพร์ . สมมติว่าคุณได้แปลงภาพทั้งหมดลงในข้อมูลการฝึกอบรม จากนั้นเครื่องเวกเตอร์สนับสนุนจะใช้อินพุตหลักสองข้อมูล:
ข้อมูลก่อนหน้า (การฝึกอบรม): ชุดเมทริกซ์ชุดนี้ตรงกับภาพแอ็ปเปิ้ลและลูกแพร์ที่เห็นก่อนหน้านี้
-
ข้อมูลใหม่ (ที่ไม่ได้มองเห็น) ประกอบด้วยภาพที่แปลงเป็นเมทริกซ์ มีจุดประสงค์เพื่อทำนายสิ่งที่อยู่ในภาพโดยอัตโนมัติคือแอปเปิ้ลหรือลูกแพร์
-
เวกเตอร์สนับสนุนใช้ฟังก์ชันทางคณิตศาสตร์ซึ่งมักเรียกว่า
kernel function ซึ่งเป็นฟังก์ชันทางคณิตศาสตร์ที่ตรงกับข้อมูลใหม่ไปยังรูปภาพที่ดีที่สุดจากข้อมูลการฝึกอบรมเพื่อคาดเดาป้ายชื่อของรูปภาพที่ไม่รู้จัก หรือลูกแพร์) เมื่อเปรียบเทียบกับเครื่องจำแนกประเภทอื่น ๆ เครื่องเวคเตอร์แบบเวกเตอร์จะให้การคาดการณ์ที่มีประสิทธิภาพและแม่นยำถูกรับผลกระทบน้อยที่สุดจากข้อมูลที่มีเสียงดังและไม่ค่อยมีการใช้งานมากนัก โปรดจำไว้ว่าเครื่องเวคเตอร์เวกเตอร์ที่เหมาะสมที่สุดสำหรับการจำแนกไบนารี - เมื่อคุณมีเพียงสองประเภท (เช่นแอปเปิ้ลหรือลูกแพร์)