สารบัญ:
ชุดข้อมูลส่วนใหญ่มาพร้อมกับ ข้อมูลเมตา ซึ่งเป็นคำอธิบายของข้อมูลใน ไฟล์. ข้อมูลเมตามักประกอบด้วยคำอธิบายรูปแบบข้อบ่งชี้ว่ามีค่าใดในแต่ละฟิลด์ข้อมูลและค่าเหล่านี้หมายถึงอะไร
เมื่อคุณประสบกับชุดข้อมูลใหม่อย่าใช้เมตาดาต้าตามมูลค่าที่กำหนด ธรรมชาติของข้อมูลขนาดใหญ่ต้องการให้ระบบที่สร้างขึ้นจะถูกเก็บและทำงานให้มากที่สุด ด้วยเหตุนี้การอัปเดตข้อมูลเมตาสำหรับระบบเหล่านี้เมื่อการเปลี่ยนแปลงถูกนำมาใช้ไม่ใช่สิ่งสำคัญอันดับแรก คุณต้องยืนยันว่าข้อมูลดังกล่าวเป็นข้อมูลการอ้างสิทธิ์ข้อมูลเมตา
การตรวจสอบแหล่งที่มาของคุณ
เป็นเรื่องที่เห็นได้ชัดเนื่องจากอาจมีเสียงเป็นสิ่งสำคัญที่คุณมีความเชื่อมั่นในข้อมูลของคุณมาจากไหน นี่เป็นสิ่งสำคัญอย่างยิ่งเมื่อคุณซื้อข้อมูล ผู้ขายหลายพันรายออกมีข้อมูลทุกอย่างที่สามารถจินตนาการได้ และพวกเขาไม่ได้ทั้งหมดของความน่าเชื่อถือเท่าเทียมกัน
ก่อนที่จะซื้อข้อมูลพยายามทำความเข้าใจว่าที่ใดและอย่างไรที่ผู้ขายกำลังรวบรวมข้อมูล ความลึกลับและความคลุมเครือเป็นธงสีแดง
อย่าใช้ผู้ขายตามคำพูดของพวกเขา อย่าพึ่งพาการโพสต์ความพึงพอใจของลูกค้าเพียงอย่างเดียวบนเว็บไซต์หรือข้อมูลอ้างอิงของลูกค้าที่ผู้ขายจัดหาไว้ ถ้าเป็นไปได้ลองติดตามคนที่กำลังใช้หรือใช้ข้อมูลอยู่
หากข้อมูลของคุณมาจากระบบภายในระบบก็ยังคงเป็นสิ่งสำคัญในการประเมินแหล่งข้อมูล ระบบต่างมีจุดประสงค์ที่แตกต่างกันดังนั้นจึงมุ่งเน้นไปที่ข้อมูลที่แตกต่างกัน นอกจากนี้ยังอาจรวบรวมข้อมูลในเวลาที่ต่างกัน
ตัวอย่างเช่นโรงแรมบางแห่งอาจจองหนังสือในระบบแยกต่างหากจากที่โรงแรมใช้ในแผนกต้อนรับส่วนหน้าเมื่อผู้เช็คอินเช็คอินเป็นไปได้ว่าแขกอาจได้รับ ข้อเสนอพิเศษระหว่างการจองและเช็คอิน ซึ่งหมายความว่าอัตราค่าห้องพักในระบบการจองห้องพักอาจไม่ตรงกับอัตราในระบบแผนกต้อนรับ นอกจากนี้การสำรองห้องพักอาจถูกยกเลิกและไม่ต้องไปที่แผนกต้อนรับ
ตอนนี้สมมติว่าคุณกำลังทำการวิเคราะห์รายได้จากโรงแรมตามเมือง เป็นสิ่งสำคัญมากที่คุณทราบว่าข้อมูลอัตราค่าห้องพักของคุณมีอยู่จากระบบแผนกต้อนรับส่วนหน้ามากกว่าระบบการจองห้องพัก แต่ถ้าคุณกำลังพยายามที่จะวิเคราะห์จำนวนการจองที่สร้างโดย Super Bowl ของ บริษัท คุณ? ในกรณีนี้คุณต้องการดูข้อมูลจากระบบการจอง
ตัวอย่างโรงแรมแสดงให้เห็นว่าแม้แต่ข้อมูลที่สะอาดภายในอาจเป็นปัญหาได้ แม้ว่าข้อมูลจะถูกต้องและตรงตามที่ระบุไว้ก็ตามเวลาอาจเป็นปัญหาได้ข้อมูลมีการเปลี่ยนแปลงตลอดเวลา
การตรวจสอบรูปแบบ
ดังที่ได้กล่าวไว้ก่อนหน้าในบทนี้หนึ่งในสิ่งที่ metadata ของคุณจะมีให้สำหรับคุณคือข้อบ่งชี้ว่าข้อมูลมีการจัดรูปแบบอย่างไร รูปแบบ เราหมายถึงลักษณะขององค์ประกอบข้อมูลแต่ละองค์ประกอบ "Product Code" เป็นตัวอักษรหรือตัวเลขหรือไม่? "วันที่เริ่ม" เป็นวันที่หรือเป็นจริงแสตมป์ datetime?
ประเภทข้อมูลมีความสำคัญในการวิเคราะห์ทางสถิติเนื่องจากกำหนดว่าสถิติใดและวิธีการทางสถิติสามารถนำมาใช้กับองค์ประกอบข้อมูลใดได้บ้าง หากคุณพยายามใช้ค่าเฉลี่ยของฟิลด์อักขระเช่น "ชื่อ" คุณจะได้รับข้อความแสดงข้อผิดพลาดทุกครั้ง
โดยปกติเมตาดาต้าประเภทนี้จะมีความถูกต้อง โดยทั่วไปแล้วระบบจะเก็บข้อมูลโดยระบบที่เก็บข้อมูลไว้และสามารถสร้างขึ้นโดยอัตโนมัติ การตรวจสอบรูปแบบโดยทั่วไปค่อนข้างตรงไปตรงมา การตรวจสอบดังกล่าวเป็นผลพลอยได้จากการตรวจสอบความถูกต้องของช่วงข้อมูลที่กล่าวถึงในส่วนต่อไปนี้ แต่มีบางกรณีที่สามารถทำได้ยากขึ้นเล็กน้อย
เราได้เห็นภาพจำลองแบบนี้มากกว่าที่เราต้องการจะเรียกคืน บางครั้งเมื่อระบบได้รับการออกแบบครั้งแรกทีมพัฒนาพยายามที่จะปรับโครงสร้างข้อมูลให้ยืดหยุ่นเพื่อรองรับการปรับปรุงในอนาคต บางครั้งพวกเขาเพียงแค่เพิ่มคอลัมน์ข้อมูลตัวเลขที่ว่างเปล่า (และกว้าง) ลงในตอนท้ายของแต่ละระเบียน คอลัมน์เสริมเหล่านี้ในตอนแรกไม่ได้ใช้เพื่ออะไร
นักวิเคราะห์มักจะหลงทางในการขอข้อมูลมากกว่าไม่ใช่ - บ่อยๆ ทั้งหมด ข้อมูลมากกว่า บางส่วน ความเป็นจริงนี้รวมกับความจำเป็นในการรับข้อมูลอย่างรวดเร็วอาจส่งผลให้เกิดการถ่ายโอนข้อมูล การถ่ายโอนข้อมูลนี้มักประกอบด้วยคอลัมน์เสริม ในกรณีเหล่านี้ข้อมูลเมตาจะบอกคุณบางอย่างเช่น "ฟิลด์ 1-11" มีการจัดรูปแบบเป็น "200 ตัวอักษรและตัวเลข "
ข้อมูลดังกล่าวไม่มีประโยชน์จริงๆ เพื่อให้ความรู้สึกของเขตข้อมูลเช่นนี้คุณสวยมากต้องได้รับในมือของคุณสกปรก มีไม่มากที่คุณสามารถทำได้ยกเว้นหน้าผ่านระเบียนไม่กี่โหลและพยายามทำให้เดาข้อมูลเกี่ยวกับสิ่งที่เป็นจริงในเขตข้อมูล ในกรณีส่วนใหญ่ฟิลด์เหล่านี้มักว่างเปล่า แต่ไม่เสมอไป. ข่าวดีก็คือถ้าฟิลด์นี้ใช้จริงคุณควรจะสามารถหาโปรแกรมเมอร์ที่ใดที่รู้ว่ามีการใช้งานอะไรบ้าง
การพิมพ์ข้อมูลของคุณ
ขั้นตอนหนึ่งที่สำคัญที่สุดในการทำการวิเคราะห์ทางสถิติคือการตรวจสอบว่าข้อมูลของคุณเป็นข้อมูลที่ถูกต้อง ขั้นตอนทางสถิติจะผิดพลาดอย่างต่อเนื่องหากคุณไม่ได้ให้ข้อมูลที่ถูกต้องเกี่ยวกับรูปแบบข้อมูล แต่ขั้นตอนเหล่านี้ส่วนใหญ่จะทำให้เกิดปัญหากับความถูกต้องของข้อมูล
การทำความเข้าใจว่าฟิลด์ข้อมูลถูกจัดรูปแบบไม่เพียงพอ ก่อนที่จะเปลี่ยนชุดข้อมูลไปเป็นขั้นตอนทางสถิติคุณต้องเข้าใจว่าข้อมูลใดที่เป็นจริงในแต่ละฟิลด์ที่คุณใช้อยู่
ข้อมูลส่วนใหญ่ตกอยู่ในหนึ่งในสี่หมวดหมู่: ระบุ, ลำดับ, ช่วงเวลาและอัตราส่วนชนิดข้อมูลกำหนดว่าสถิติและวิธีการทางสถิติใดที่สามารถใช้กับเขตข้อมูลเฉพาะได้ คุณไม่สามารถใช้ค่าเฉลี่ยของฟิลด์เช่น "นามสกุล" ตัวอย่างเช่น
ประเภทข้อมูลที่สับสนกับรูปแบบข้อมูลเป็นเรื่องง่าย (และเป็นเรื่องที่พบได้บ่อยเกินไป) ทราบว่าฟิลด์ข้อมูลเป็นอักขระจำนวนเต็มหรือต่อเนื่องไม่ได้บอกชนิดข้อมูลให้คุณทราบ
บางครั้งฟิลด์อักขระใช้เป็นตัวยึดตำแหน่งสำหรับข้อมูลที่อาจถูกบันทึกในอนาคตของระบบ ไม่มีอะไรที่จะป้องกันไม่ให้เขตข้อมูลดังกล่าวถูกนำมาใช้เพื่อเก็บข้อมูลตัวเลขหรือข้อมูลตัวเลขอื่น ๆ
ข้อผิดพลาดประเภทข้อมูลส่วนใหญ่เกี่ยวข้องกับสมมติว่าฟิลด์ตัวเลขโดยเฉพาะฟิลด์ที่มีค่าเป็นจำนวนเต็มจะมีข้อมูล ลำดับ ตัวเลขเป็นตัวเลข เป็นเรื่องปกติธรรมดาที่ บริษัท ต้องใช้รหัสตัวเลข ( ข้อมูล ที่ระบุ) เพื่อแสดงผลิตภัณฑ์ภูมิภาคร้านค้าและหน่วยงานอื่น ๆ
รหัสเที่ยวบินของสายการบินเป็นตัวอย่างหนึ่ง สำมะโนประชากรเป็นอีกภูมิภาคหนึ่ง แม้บัตรเครดิตและหมายเลขประกันสังคมจะถูกจัดเก็บเป็นจำนวนเต็ม แต่ทั้งหมดของหน่วยงานเหล่านี้เป็นเพียงตัวระบุ ตัวแปรเหล่านี้มีตัวแปร nominal หมายเลขบัตรเครดิต ในพอร์ตโฟลิโอของธนาคารเป็นสถิติที่ไม่มีความหมาย