การจัดกลุ่มและการแบ่งประเภททั้งสองแบบขึ้นอยู่กับการคำนวณความเหมือนหรือความแตกต่างระหว่างจุดข้อมูลสองจุด หากชุดข้อมูลของคุณ ตัวเลข - ประกอบด้วยฟิลด์และค่าที่เป็นตัวเลขเท่านั้น - และสามารถแสดงภาพได้ใน n - มิติภาพแล้วมีเมตริกทางเรขาคณิตต่างๆที่คุณสามารถใช้เพื่อปรับขนาดของคุณได้หลายมิติ ข้อมูล.
แผน พล็อต n มิติ คือแผนภูมิผันผวนแบบกระจายหลายมิติที่คุณสามารถใช้เพื่อวางแผนมิติข้อมูลของ n
บางตัวชี้วัดทางเรขาคณิตที่เป็นที่นิยมใช้ในการคำนวณระยะทางระหว่างจุดข้อมูล ได้แก่ เมตริกทางไกลยุคลิด, แมนฮัตตัน, หรือมินคอฟสกี เมตริกเหล่านี้เป็นเพียงฟังก์ชันทางเรขาคณิตที่ต่างกันซึ่งเป็นประโยชน์สำหรับการสร้างแบบจำลองระยะทางระหว่างจุด เมตริกแบบยุคลิดคือการวัดระยะห่างระหว่างจุดที่วางแผนไว้บนระนาบยุคลิด
Manhattan metric คือการวัดระยะห่างระหว่างจุดที่ระยะทางคำนวณเป็นผลรวมของค่าสัมบูรณ์ของความแตกต่างระหว่างพิกัดคาร์ทีเซียนสองจุด ตัวชี้วัดระยะทาง Minkowski เป็นแนวคิดทั่วไปของเมตริกระยะทางยุคลิดและแมนฮัตตัน บ่อยครั้งที่เมตริกเหล่านี้สามารถใช้แทนกันได้
หากข้อมูลของคุณเป็นตัวเลข แต่ไม่สามารถเขียนทับได้ (เช่นเส้นโค้งแทนคะแนน) คุณสามารถสร้างคะแนนความคล้ายคลึงกันโดยพิจารณาจาก ความแตกต่าง ระหว่างข้อมูลแทนที่จะเป็นค่าที่แท้จริงของ ข้อมูลเอง
ในตอนท้ายสำหรับข้อมูลที่ไม่ใช่ตัวเลขคุณสามารถใช้เมตริกเช่นเมตริกระยะทาง Jaccard ซึ่งเป็นดัชนีที่เปรียบเทียบจำนวนคุณลักษณะที่มีจุดข้อมูลสองจุดเหมือนกัน ตัวอย่างเช่นเพื่อเป็นการแสดงถึงระยะทาง Jaccard ลองคิดถึงสองสตริงข้อความต่อไปนี้: Saint Louis de Ha-ha, Quebec และ St-Louis de Ha! ฮา!, QC
ลักษณะสตริงข้อความเหล่านี้มีอะไรบ้าง? และคุณลักษณะต่างกันอย่างไร? ตัวชี้วัด Jaccard สร้างค่าดัชนีตัวเลขที่วัดความคล้ายคลึงกันระหว่างสตริงข้อความ