ข้อมูลถูกจัดเก็บในรูปแบบต่างๆในระบบต่างๆ ดังนั้นไม่ต้องแปลกใจเลยว่าเมื่อรวบรวมและรวบรวมข้อมูลจากแหล่งต่างๆเป็นไปได้ว่ารายการที่ซ้ำกันจะปรากฏขึ้น โดยเฉพาะสิ่งที่ทำให้แต่ละเร็กคอร์ดไม่ซ้ำกันแตกต่างกันไปสำหรับระบบที่ต่างกัน
สรุปบัญชีเงินฝากกับหมายเลขบัญชี สรุปพอร์ตโฟลิโออาจถูกเก็บไว้ที่ระดับบุคคลหรือที่อยู่อาศัย และประวัติการซื้อขายของบัญชีทั้งหมดจะถูกจัดเก็บไว้ที่ระดับธุรกรรมแต่ละรายการ
สิ่งสำคัญคือต้องทำความเข้าใจเกี่ยวกับสิ่งที่ควรแยกความแตกต่างของระเบียนที่ไม่ซ้ำกันในไฟล์ข้อมูลของคุณ ตัวอย่างเช่นหากเป็นไฟล์ระดับธุรกรรมหมายเลขบัญชีและรหัสประจำตัวจะถูกทำซ้ำ ตราบเท่าที่คุณเข้าใจเรื่องนี้และกำลังทำการวิเคราะห์ระดับธุรกรรมคุณจะถูกปรับ
แต่ถ้าคุณสนใจที่จะใช้ข้อมูลนี้เพื่อวิเคราะห์จำนวนบัญชีที่แต่ละครัวเรือนเก็บไว้คุณจะพบปัญหา ครัวเรือนที่ค้าขายบ่อยขึ้นจะมีสถิติมากกว่าครัวเรือนที่ไม่ค้าขายมากนัก คุณต้องมีไฟล์ที่ระดับบัญชี
การลบระเบียนที่ซ้ำกันไม่ใช่เรื่องยากโดยเฉพาะ แพ็คเกจทางสถิติและระบบฐานข้อมูลส่วนใหญ่มีคำสั่งภายในที่บันทึกกลุ่มด้วยกัน (ในความเป็นจริงในภาษา SQL ฐานข้อมูลคำสั่งนี้เรียกว่า Group By.)