ก่อนที่จะใช้การวิเคราะห์เชิงคาดการณ์คุณจะต้องตรวจสอบให้แน่ใจว่าข้อมูลนั้นสะอาดหมดจดก่อนที่คุณจะสามารถใช้งานได้ใน แบบ ซึ่งรวมถึงการค้นหาและแก้ไขบันทึกที่มีค่าผิดพลาดและพยายามเติมค่าที่ขาดหายไป นอกจากนี้คุณยังต้องตัดสินใจว่าจะรวมระเบียนที่ซ้ำกันหรือไม่ (ตัวอย่างเช่นบัญชีลูกค้าสองบัญชี)
เป้าหมายโดยรวมคือการตรวจสอบความสมบูรณ์ของข้อมูลที่คุณใช้ในการสร้างรูปแบบการทำนายของคุณ ให้ความสำคัญกับความครบถ้วนถูกต้องและตรงเวลาของข้อมูล
การสร้าง สถิติเชิงพรรณนา (ลักษณะเชิงปริมาณ) สำหรับฟิลด์ต่างๆเช่นการคำนวณนาทีและสูงสุดตรวจสอบการกระจายความถี่ เป็นสิ่งที่มีประโยชน์) และยืนยันช่วงที่คาดไว้ การเรียกใช้การตรวจสอบตามปกติจะช่วยให้คุณตั้งค่าสถานะข้อมูลใด ๆ ที่อยู่นอกช่วงที่คาดว่าจะได้รับการตรวจสอบต่อไป บันทึกใดที่แสดงวันเกษียณที่มีวันเกิดในปี 1990 สามารถระบุได้โดยใช้วิธีนี้
นอกจากนี้การตรวจสอบข้อมูลเป็นสิ่งสำคัญเพื่อให้แน่ใจว่าข้อมูลถูกต้อง สำหรับการวิเคราะห์ลักษณะข้อมูลและการระบุความสัมพันธ์ระหว่างเร็กคอร์ดข้อมูลอย่างลึกซึ้งคุณสามารถใช้ข้อมูล ข้อมูล (การวิเคราะห์ข้อมูลที่พร้อมใช้งานและรวบรวมข้อมูลสถิติเกี่ยวกับคุณภาพข้อมูล) และเครื่องมือแสดงข้อมูล
ข้อมูลที่ขาดหายไปอาจเนื่องมาจากข้อมูลที่ไม่ได้บันทึกไว้ ในกรณีเช่นนี้คุณสามารถพยายามกรอกข้อมูลให้มากที่สุดเท่าที่คุณจะทำได้ ค่าดีฟอลต์ที่เหมาะสมสามารถเพิ่มลงในช่องว่างในบางฟิลด์ได้อย่างง่ายดาย
ตัวอย่างเช่นสำหรับผู้ป่วยที่อยู่ในหอผู้ป่วยในโรงพยาบาลที่เขตข้อมูลเพศขาดหายไปแอ็พพลิเคชันสามารถกรอกข้อมูลเป็นหญิงได้ สำหรับเรื่องนี้สำหรับผู้ชายที่เข้ารับการรักษาตัวในโรงพยาบาลที่มีประวัติขาดหายไปสำหรับสถานะการตั้งครรภ์แล้วบันทึกนั้นจะสามารถกรอกข้อมูลในแบบไม่ใช้บังคับได้
รหัสไปรษณีย์ที่ขาดหายไปสำหรับที่อยู่สามารถอนุมานได้จากชื่อถนนและเมืองที่ให้ไว้ในที่อยู่นั้น
ในกรณีที่ข้อมูลไม่เป็นที่รู้จักหรือไม่สามารถอนุมานได้คุณจะต้องใช้ค่า อื่น ๆ กว่าช่องว่างเพื่อบ่งชี้ว่าข้อมูลหายไปโดยไม่มีผลต่อความถูกต้องของการวิเคราะห์ ข้อมูลที่ว่างในข้อมูลอาจหมายถึงหลายสิ่งหลายอย่างซึ่งส่วนใหญ่ไม่เป็นประโยชน์หรือเป็นประโยชน์ เมื่อใดก็ตามที่คุณสามารถทำได้คุณควรระบุลักษณะของข้อมูลที่ว่างไว้โดยใส่ข้อมูลที่มีความหมาย
เช่นเดียวกับที่เป็นไปได้ที่จะกำหนดดอกกุหลาบในทุ่งนาที่เป็นวัชพืชค่าความผิดปกติอาจหมายถึงสิ่งที่แตกต่างกันในการวิเคราะห์ที่แตกต่างกันเป็นเรื่องธรรมดาสำหรับบางรูปแบบที่จะสร้างขึ้นมาเพียงเพื่อติดตามข้อผิดพลาดเหล่านั้นและตั้งค่าสถานะเหล่านั้น
รูปแบบการตรวจสอบการทุจริตและการตรวจสอบกิจกรรมทางอาญามีความสนใจในข้อผิดพลาดเหล่านี้ซึ่งในกรณีดังกล่าวระบุว่ามีสิ่งที่ไม่พึงประสงค์เกิดขึ้น ดังนั้นการรักษาค่าผิดปกติในชุดข้อมูลในกรณีเช่นนี้จึงขอแนะนำ อย่างไรก็ตามเมื่อค่าผิดปกติถูกถือว่าเป็นความผิดปกติภายในข้อมูลและจะเบี่ยงเบนการวิเคราะห์และนำไปสู่ผลลัพธ์ที่ผิดพลาดเท่านั้นให้นำข้อมูลเหล่านั้นออกจากข้อมูลของคุณ
การทำซ้ำในข้อมูลยังสามารถเป็นประโยชน์หรือสร้างความรำคาญได้ บางส่วนอาจจำเป็นต้องใช้สามารถระบุค่าและสามารถสะท้อนถึงสถานะที่ถูกต้องของข้อมูลได้ ตัวอย่างเช่นบันทึกของลูกค้าที่มีหลายบัญชีสามารถแสดงด้วยรายการหลายรายการ (ทางเทคนิค, ต่อไป) ที่ซ้ำกันและซ้ำ ๆ กันของระเบียนเดียวกัน
ในทำนองเดียวกันเมื่อระเบียนที่ซ้ำกันไม่ได้มีส่วนช่วยในการวิเคราะห์และไม่จำเป็นต้องมีการลบออกอาจมีมูลค่ามหาศาล โดยเฉพาะอย่างยิ่งสำหรับชุดข้อมูลขนาดใหญ่ที่การลบระเบียนที่ซ้ำกันสามารถลดความซับซ้อนของข้อมูลและลดเวลาที่ใช้ในการวิเคราะห์ได้
คุณสามารถป้องกันข้อมูลที่ไม่ถูกต้องจากระบบของคุณโดยใช้ขั้นตอนเฉพาะบางอย่าง:
-
ตรวจสอบคุณภาพของสถาบันและการตรวจสอบข้อมูลสำหรับข้อมูลทั้งหมดที่เก็บรวบรวม
-
อนุญาตให้ลูกค้าตรวจสอบและแก้ไขข้อมูลส่วนบุคคลของตนเอง
-
ให้ลูกค้าของคุณมีค่าที่เป็นไปได้และคาดว่าจะได้รับเลือก
-
ตรวจสอบความถูกต้องสม่ำเสมอสม่ำเสมอและความถูกต้องของข้อมูล