คุณใช้อัลกอริทึมการจัดกลุ่มเพื่อแบ่งย่อยชุดข้อมูลของคุณให้เป็นกลุ่มข้อมูลที่เหมือนกันมากที่สุดสำหรับแอตทริบิวต์ที่กำหนดไว้ล่วงหน้า หากคุณมีชุดข้อมูลที่อธิบายแอตทริบิวต์หลายอย่างเกี่ยวกับคุณลักษณะเฉพาะและต้องการจัดกลุ่มจุดข้อมูลของคุณตามความคล้ายคลึงกันของแอตทริบิวต์ให้ใช้อัลกอริทึมการจัดกลุ่ม
แผนผังกระจายที่เรียบง่ายของชุดข้อมูลรายได้และการศึกษาของประเทศทำให้ได้แผนภูมิที่คุณเห็นที่นี่
ในการจัดกลุ่มที่ไม่ได้รับการยกเว้นคุณเริ่มต้นด้วยข้อมูลนี้แล้วดำเนินการแบ่งส่วนย่อยดังกล่าวในชุดย่อย กลุ่มย่อยเหล่านี้เรียกว่า clusters และประกอบด้วยจุดข้อมูลที่คล้ายคลึงกันมากที่สุด ดูเหมือนว่ามีกลุ่มอย่างน้อยสองกลุ่มซึ่งอาจเป็นกลุ่มที่มีรายได้ต่ำสุดและมีการศึกษาอยู่สามคนและจากนั้นประเทศที่มีการศึกษาสูงอาจดูเหมือนแบ่งรายได้ต่ำและรายได้สูง
รูปต่อไปนี้แสดงผลลัพธ์ของการ eyeballing - การประมาณภาพของกลุ่ม - ในชุดข้อมูลนี้
แม้ว่าคุณจะสามารถสร้างการประมาณกลุ่มภาพได้อย่างรวดเร็ว แต่คุณสามารถบรรลุผลลัพธ์ที่ถูกต้องมากขึ้นเมื่อจัดการกับชุดข้อมูลที่มีขนาดใหญ่กว่ามากโดยใช้อัลกอริทึมเพื่อสร้างคลัสเตอร์ให้กับคุณ การประมาณภาพเป็นวิธีการที่ใช้ประโยชน์ได้ยากในชุดข้อมูลขนาดเล็กที่มีความซับซ้อนน้อยที่สุด อัลกอริทึมจะทำให้ได้ผลลัพธ์ที่แน่นอนและสามารถทำซ้ำได้และคุณสามารถใช้อัลกอริทึมในการสร้างการจัดกลุ่มข้อมูลหลายมิติภายในชุดข้อมูลของคุณ
อัลกอริทึมการจัดกลุ่มเป็นวิธีการหนึ่งที่ใช้ในการเรียนรู้ด้วยตัวเครื่องแบบไม่ได้ตั้งใจ - วิธีอื่น ๆ รวมถึงวิธีการและวิธีการในการลดขนาดของมาร์คอฟ อัลกอริทึมการจัดกลุ่มมีความเหมาะสมในสถานการณ์ที่มีลักษณะต่อไปนี้:
-
คุณรู้จักและเข้าใจชุดข้อมูลที่คุณกำลังวิเคราะห์
-
ก่อนที่จะรันอัลกอริทึมการจัดกลุ่มคุณจะไม่มีแนวคิดที่ชัดเจนเกี่ยวกับลักษณะของกลุ่มย่อย (กลุ่ม) บ่อยครั้งคุณจะไม่ทราบว่ามีชุดย่อยกี่ชุดในชุดข้อมูลก่อนที่คุณจะเรียกใช้อัลกอริทึม
-
กลุ่มย่อย (กลุ่ม) จะถูกกำหนดโดยเฉพาะชุดข้อมูลที่คุณกำลังวิเคราะห์เท่านั้น
-
เป้าหมายของคุณคือกำหนดโมเดลที่อธิบายชุดย่อยในชุดข้อมูลเดียวและเฉพาะชุดข้อมูลนี้
ถ้าคุณเพิ่มข้อมูลมากขึ้นคุณควรเรียกใช้การวิเคราะห์ตั้งแต่เริ่มต้นเพื่อให้ได้ผลลัพธ์แบบสมบูรณ์และถูกต้อง