เพื่อนบ้านที่ใกล้เคียงที่สุดคืออัลกอริทึมที่ใช้กันอย่างแพร่หลายในการวิเคราะห์เชิงพยากรณ์เพื่อจัดกลุ่มข้อมูลโดยการกำหนดไอเท็มให้กับคลัสเตอร์โดยกำหนดว่ารายการใดที่คล้ายคลึงกันมากที่สุด ขั้นตอนต่อไปนี้ใช้ขั้นตอนต่อไปนี้โดยทั่วไป:
-
มาเมทริกซ์ความเหมือนกันจากรายการในชุดข้อมูล
เมทริกซ์นี้เรียกว่า distance matrix จะถือค่าความคล้ายคลึงกันสำหรับแต่ละรายการในชุดข้อมูล (ค่าเหล่านี้จะถูกอธิบายรายละเอียดในตัวอย่างต่อไป)
-
ด้วยเมทริกซ์ในสถานที่เปรียบเทียบแต่ละรายการในชุดข้อมูลกับทุกรายการอื่น ๆ และคำนวณค่าความคล้ายคลึงกัน
-
การใช้เมทริกซ์ระยะทางตรวจสอบทุกรายการเพื่อดูว่าระยะทางที่เพื่อนบ้านมีค่าน้อยกว่าค่าที่คุณกำหนดหรือไม่
ค่านี้เรียกว่า threshold
-
อัลกอริทึมจะทำให้แต่ละองค์ประกอบในคลัสเตอร์แยกวิเคราะห์รายการและตัดสินใจว่ารายการใดที่คล้ายกันและเพิ่มรายการที่คล้ายกันลงในคลัสเตอร์เดียวกัน
-
อัลกอริทึมจะหยุดทำงานเมื่อตรวจสอบรายการทั้งหมด
พิจารณาชุดข้อมูลของแปดตำแหน่งทางภูมิศาสตร์ที่บุคคลอาศัยอยู่ มีจุดประสงค์เพื่อแบ่งกลุ่มคนเหล่านี้ออกเป็นกลุ่มตามตำแหน่งทางภูมิศาสตร์ตามที่กำหนดโดย Global Positioning System
แผนภูมินี้แสดงชุดข้อมูลที่เรียบง่ายของข้อมูลทางภูมิศาสตร์ของแต่ละบุคคล สมมติว่าข้อมูลทั้งหมดที่เก็บรวบรวมเกี่ยวกับแปดคนเหล่านี้ถูกเก็บรวบรวม ณ จุดเฉพาะเจาะจงในเวลา
√ (f, <1> >
- f b, 2 ) 2 + … + (f a, n > 2 ที่นี่ f a, 1 เป็นคุณลักษณะแรกของรายการ A f a, 2 เป็นคุณลักษณะที่สองของรายการ A และค่าที่สอดคล้องกัน b แสดงคุณสมบัติของรายการ B. ตัวแปร n คือจำนวนของคุณสมบัติ ในตัวอย่างนี้ n
คือ 2. ตัวอย่างเช่นความคล้ายคลึงกันระหว่างรายการที่ 1 และ 2 จะถูกคำนวณดังนี้ ความคล้ายคลึงกันระหว่างรายการที่ 1 และ 2 = √ (2-2) 2 + (10-5) 2 = 59999