สารบัญ:
- การละเว้นปัญหา
- การกรอกข้อมูลที่ขาดหายไปจะทำให้เดาได้ว่าจะเกิดอะไรขึ้นในสาขานั้น มีวิธีที่ดีและไม่ดีในการทำเช่นนี้ หนึ่งวิธีง่ายๆ (แต่ไม่ดี) คือการแทนที่ค่าที่หายไปกับค่าเฉลี่ยของค่าที่ไม่ได้หายไป ในฟิลด์ที่ไม่ใช่ตัวเลขคุณอาจถูกล่อลวงให้เติมระเบียนที่ขาดหายไปโดยมีค่าที่พบมากที่สุดในเร็กคอร์ดอื่น ๆ (โหมด)
ปัญหาข้อมูลที่เกิดขึ้นบ่อยครั้งและไม่เป็นระเบียบมากที่สุดในการจัดการข้อมูลหายไป ไฟล์อาจไม่สมบูรณ์เนื่องจากระเบียนถูกทิ้งหรืออุปกรณ์จัดเก็บข้อมูลเต็มไป หรือบางฟิลด์ข้อมูลอาจไม่มีข้อมูลสำหรับระเบียนบางรายการ แรกของปัญหาเหล่านี้สามารถวินิจฉัยโดยเพียงแค่การตรวจสอบการนับระเบียนสำหรับไฟล์ ปัญหาที่สองเป็นเรื่องยากที่จะจัดการกับ
หากต้องการระบุในฟิลด์ที่เข้าใจง่ายคุณจะมีสองทางเลือก:
-
ไม่สนใจ
-
ติดอยู่ในสนาม
การละเว้นปัญหา
ในบางกรณีคุณสามารถหาฟิลด์เดียวที่มีค่าที่ขาดหายไปได้จำนวนมาก ถ้าเป็นเช่นนั้นสิ่งที่ง่ายที่สุดก็คือละเว้นฟิลด์ อย่ารวมไว้ในการวิเคราะห์ของคุณ
อีกวิธีหนึ่งที่จะเพิกเฉยต่อปัญหาคือการละเว้นการบันทึก เพียงลบระเบียนที่มีข้อมูลที่หายไป นี้อาจทำให้รู้สึกว่ามีเพียงไม่กี่โกงระเบียน แต่ถ้ามีหลายช่องข้อมูลที่มีค่าที่ขาดหายไปจำนวนมากวิธีนี้อาจลดจำนวนระเบียนของคุณลงในระดับที่ยอมรับไม่ได้
อีกสิ่งหนึ่งที่ต้องระวังก่อนที่จะลบเร็กคอร์ดคือเครื่องหมายของรูปแบบใด ๆ ตัวอย่างเช่นสมมติว่าคุณกำลังวิเคราะห์ชุดข้อมูลที่เกี่ยวข้องกับยอดคงเหลือบัตรเครดิตทั่วประเทศ คุณอาจพบระเบียนทั้งหมดที่แสดงเป็น 0 บาท 00 ยอดคงเหลือ (อาจประมาณครึ่งหนึ่งของระเบียน) นี่ไม่ใช่ตัวบ่งชี้ข้อมูลที่ขาดหายไป อย่างไรก็ตามหากระเบียนทั้งหมดจากแคลิฟอร์เนียบอกว่ามีการแสดง $ 0 00 ซึ่งแสดงถึงปัญหาที่อาจเกิดขึ้นกับค่าที่ขาดหายไป และไม่ใช่เรื่องที่จะแก้ไขได้อย่างมีประโยชน์โดยการลบระเบียนทั้งหมดออกจากรัฐที่ใหญ่ที่สุดในประเทศ ในกรณีนี้อาจเป็นปัญหาเกี่ยวกับระบบและระบุว่าควรสร้างไฟล์ใหม่
การกรอกข้อมูลที่ขาดหายไปการกรอกข้อมูลที่ขาดหายไปจะทำให้เดาได้ว่าจะเกิดอะไรขึ้นในสาขานั้น มีวิธีที่ดีและไม่ดีในการทำเช่นนี้ หนึ่งวิธีง่ายๆ (แต่ไม่ดี) คือการแทนที่ค่าที่หายไปกับค่าเฉลี่ยของค่าที่ไม่ได้หายไป ในฟิลด์ที่ไม่ใช่ตัวเลขคุณอาจถูกล่อลวงให้เติมระเบียนที่ขาดหายไปโดยมีค่าที่พบมากที่สุดในเร็กคอร์ดอื่น ๆ (โหมด)
วิธีการเหล่านี้น่าเสียดายที่ยังคงใช้บ่อยๆในบางแอปพลิเคชันทางธุรกิจแต่พวกเขาได้รับการยอมรับอย่างกว้างขวางจากนักสถิติว่าเป็นความคิดที่ไม่ดี สำหรับประเด็นหนึ่งการวิเคราะห์ทางสถิติคือการหาข้อมูลที่ทำให้เกิดความแตกต่างจากผลลัพธ์อื่น เมื่อแทนที่ระเบียนที่ขาดหายไปทั้งหมดที่มีค่าเท่ากันคุณจะไม่สามารถแยกแยะอะไรก็ได้
วิธีการที่สูงขึ้นคือการพยายามที่จะหาวิธีที่จะคาดเดาได้อย่างมีนัยสำคัญว่าควรใส่ค่าใดในแต่ละระเบียนที่ไม่มีค่า นี้เกี่ยวข้องกับการดูระเบียนที่สมบูรณ์และพยายามหาเบาะแสเป็นสิ่งที่ค่าหายไปอาจจะ
สมมติว่าคุณกำลังวิเคราะห์แฟ้มข้อมูลประชากรเพื่อคาดการณ์ว่าผู้ซื้อรายหนึ่งของผลิตภัณฑ์ของคุณ ในแฟ้มที่คุณมีในเขตข้อมูลอื่น ๆ ข้อมูลเกี่ยวกับสถานภาพการสมรสจำนวนเด็กและจำนวนรถยนต์ ด้วยเหตุผลบางประการฟิลด์ autos จำนวนหนึ่งหายไปในหนึ่งในสามของระเบียน
การวิเคราะห์อีกสองช่อง - สถานะการสมรสและจำนวนบุตร - คุณอาจค้นพบรูปแบบบางส่วน คนโสดมีแนวโน้มที่จะมีรถคันเดียว คนที่แต่งงานแล้วไม่มีบุตรมักจะมีรถสองคัน คนที่แต่งงานแล้วที่มีบุตรมากกว่าหนึ่งคนอาจมีแนวโน้มที่จะมีรถสามคัน ด้วยวิธีนี้คุณสามารถคาดเดาค่าที่หายไปได้ในแบบที่แตกต่างจากระเบียนจริง เพิ่มเติมเกี่ยวกับวิธีการที่จะมานี้
มีคำทั่วไปในสถิติและการประมวลผลข้อมูลซึ่งหมายถึงข้อมูลที่น่าสงสัย คำที่
มีเสียงดัง ใช้เพื่ออธิบายข้อมูลที่ไม่น่าเชื่อถือเสียหายหรือน้อยกว่าที่เก่าแก่ ข้อมูลที่ขาดหายไปเป็นเพียงตัวอย่างหนึ่งเท่านั้น รายละเอียดของเทคนิคในการทำความสะอาดข้อมูลที่มีเสียงดังโดยทั่วไปอยู่นอกเหนือขอบเขตของหนังสือเล่มนี้ อันที่จริงแล้วนี่เป็นงานวิจัยเชิงทฤษฎีทางสถิติ ความจริงที่ว่าเสียงทั้งหมดไม่ใช่เรื่องง่ายที่จะชี้ให้เห็นว่าค่าที่หายไปทำให้ยุ่งยากในการจัดการ