คุณจะต้องตรวจสอบให้แน่ใจว่าข้อมูลนั้นสะอาดหมดจดก่อนที่คุณจะสามารถใช้ข้อมูลนี้ในการคาดการณ์ได้ analysis ซึ่งรวมถึงการค้นหาและแก้ไขบันทึกที่มีค่าผิดพลาดและพยายามเติมค่าที่ขาดหายไปคุณจะต้องตัดสินใจว่าจะรวมระเบียนที่ซ้ำกันหรือไม่เช่นบัญชีลูกค้าสองบัญชีเป้าหมายโดยรวมคือ ตรวจสอบความถูกต้องของข้อมูลที่คุณใช้ในการสร้างแบบจำลองการทำนายของคุณให้ความสำคัญกับความสมบูรณ์ความถูกต้องและทันเวลาของข้อมูล
เป็นประโยชน์ในการสร้างคำอธิบาย (ความถี่ที่เกิดขึ้น) และการตรวจสอบช่วงที่คาดไว้การใช้งานการตรวจสอบตามปกติจะช่วยให้คุณสามารถตั้งค่าสถานะข้อมูลใด ๆ ที่อยู่นอกช่วงที่คาดว่าจะได้รับ stigation บันทึกใดที่แสดงวันเกษียณที่มีวันเกิดในปี 1990 สามารถระบุได้โดยใช้วิธีการนี้
นอกจากนี้การตรวจสอบข้อมูลเป็นสิ่งสำคัญเพื่อให้แน่ใจว่าข้อมูลถูกต้อง สำหรับการวิเคราะห์ลักษณะข้อมูลและการระบุความสัมพันธ์ระหว่างเร็กคอร์ดข้อมูลอย่างลึกซึ้งคุณสามารถใช้ข้อมูล ข้อมูล (การวิเคราะห์ข้อมูลที่พร้อมใช้งานและรวบรวมข้อมูลสถิติเกี่ยวกับคุณภาพข้อมูล) และเครื่องมือแสดงข้อมูล
ข้อมูลที่ขาดหายไปอาจเนื่องมาจากข้อมูลที่ไม่ได้บันทึกไว้ ในกรณีเช่นนี้คุณสามารถพยายามกรอกข้อมูลให้มากที่สุดเท่าที่คุณจะทำได้ ค่าดีฟอลต์ที่เหมาะสมสามารถเพิ่มลงในช่องว่างในบางฟิลด์ได้อย่างง่ายดาย
ตัวอย่างเช่นสำหรับผู้ป่วยที่อยู่ในหอผู้ป่วยในโรงพยาบาลที่เขตข้อมูลเพศขาดหายไปแอ็พพลิเคชันสามารถกรอกข้อมูลเป็นหญิงได้ สำหรับเรื่องนี้สำหรับผู้ชายที่เข้ารับการรักษาตัวในโรงพยาบาลที่มีประวัติขาดหายไปสำหรับสถานะการตั้งครรภ์แล้วบันทึกนั้นจะสามารถกรอกข้อมูลในแบบไม่ใช้บังคับได้ รหัสไปรษณีย์ที่ขาดหายไปสำหรับที่อยู่สามารถอนุมานได้จากชื่อถนนและเมืองที่ให้ไว้ในที่อยู่นั้น
ในกรณีที่ข้อมูลไม่เป็นที่รู้จักหรือไม่สามารถอนุมานได้คุณจะต้องใช้ค่า อื่น ๆ กว่าช่องว่างเพื่อระบุว่าข้อมูลหายไปโดยไม่มีผลต่อความถูกต้องของการวิเคราะห์. ข้อมูลที่ว่างในข้อมูลอาจหมายถึงหลายสิ่งหลายอย่างซึ่งส่วนใหญ่ไม่เป็นประโยชน์หรือเป็นประโยชน์ เมื่อใดก็ตามที่คุณสามารถทำได้คุณควรระบุลักษณะของข้อมูลที่ว่างไว้โดยตัวบรรจุสถานที่ที่มีความหมาย สำหรับข้อมูลตัวเลขที่ทำจากตัวเลขขนาดเล็กและบวก (ค่าระหว่าง 0 ถึง 100) ผู้ใช้สามารถกำหนดหมายเลข -999 ได้99 เป็นตัวเติมข้อมูลสถานที่สำหรับข้อมูลที่หายไป
เช่นเดียวกับที่เป็นไปได้ที่จะกำหนดดอกกุหลาบในทุ่งนาที่เป็นวัชพืชค่าความผิดปกติอาจหมายถึงสิ่งที่แตกต่างกันในการวิเคราะห์ที่แตกต่างกัน เป็นเรื่องธรรมดาสำหรับบางรูปแบบที่จะสร้างขึ้นมาเพียงเพื่อติดตามข้อผิดพลาดเหล่านั้นและตั้งค่าสถานะเหล่านั้น รูปแบบการตรวจสอบการทุจริตและการตรวจสอบกิจกรรมทางอาญามีความสนใจในข้อผิดพลาดเหล่านี้ซึ่งในกรณีดังกล่าวบ่งบอกถึงสิ่งที่ไม่พึงประสงค์เกิดขึ้น
ดังนั้นการรักษาค่าผิดปกติในชุดข้อมูลในกรณีเช่นนี้จึงขอแนะนำ อย่างไรก็ตามเมื่อค่าผิดปกติถูกถือว่าเป็นความผิดปกติภายในข้อมูลและจะเบี่ยงเบนการวิเคราะห์และนำไปสู่ผลลัพธ์ที่ผิดพลาดเท่านั้นให้นำข้อมูลเหล่านั้นออกจากข้อมูลของคุณ สิ่งที่คุณไม่ต้องการเกิดขึ้นก็คือโมเดลของคุณจะพยายามคาดการณ์ค่าผิดปกติและจะไม่สามารถทำนายสิ่งอื่นได้
การทำซ้ำในข้อมูลยังสามารถเป็นประโยชน์หรือสร้างความรำคาญได้ บางส่วนอาจจำเป็นต้องใช้สามารถระบุค่าและสามารถสะท้อนถึงสถานะที่ถูกต้องของข้อมูลได้ ตัวอย่างเช่นบันทึกของลูกค้าที่มีหลายบัญชีสามารถแสดงด้วยรายการหลายรายการ (ทางเทคนิค, ต่อไป) ที่ซ้ำกันและซ้ำ ๆ กันของระเบียนเดียวกัน
อีกตัวอย่างหนึ่งคือลูกค้าที่มีทั้งโทรศัพท์สำหรับทำงานและโทรศัพท์ส่วนบุคคลกับ บริษัท เดียวกันและมีใบเสร็จไปที่ที่อยู่เดียวกันซึ่งเป็นสิ่งที่น่ารู้ ในทำนองเดียวกันเมื่อระเบียนที่ซ้ำกันไม่ได้มีส่วนช่วยในการวิเคราะห์และไม่จำเป็นต้องใช้ข้อมูลเหล่านี้อาจทำให้มีค่ามาก โดยเฉพาะอย่างยิ่งสำหรับชุดข้อมูลขนาดใหญ่ที่การลบระเบียนที่ซ้ำกันสามารถลดความซับซ้อนของข้อมูลและลดเวลาที่ใช้ในการวิเคราะห์ได้
คุณสามารถป้องกันข้อมูลที่ไม่ถูกต้องจากระบบของคุณโดยใช้ขั้นตอนเฉพาะบางอย่าง:
- ตรวจสอบคุณภาพของสถาบันและการตรวจสอบข้อมูลสำหรับข้อมูลทั้งหมดที่เก็บรวบรวม
- อนุญาตให้ลูกค้าตรวจสอบและแก้ไขข้อมูลส่วนบุคคลของตนเอง
- ให้ลูกค้าของคุณมีค่าที่เป็นไปได้และคาดว่าจะได้รับเลือก
- ตรวจสอบความถูกต้องสม่ำเสมอสม่ำเสมอและความถูกต้องของข้อมูล