8 วิธีปฏิบัติที่ดีที่สุดในการจัดทำข้อมูล - หุ่น

แพคเกจซอฟต์แวร์สถิติมีประสิทธิภาพมากในปัจจุบัน แต่ไม่สามารถเอาชนะข้อมูลที่มีคุณภาพไม่ดี ต่อไปนี้เป็นรายการตรวจสอบสิ่งที่คุณต้องทำก่อนที่คุณจะเลิกสร้างแบบจำลองทางสถิติ

ตรวจสอบรูปแบบข้อมูล

การวิเคราะห์ของคุณจะเริ่มต้นด้วยไฟล์ข้อมูลดิบ ไฟล์ข้อมูลดิบมีหลายรูปแบบและขนาด ข้อมูล Mainframe แตกต่างจากข้อมูลพีซีข้อมูลสเปรดชีตจะได้รับการจัดรูปแบบแตกต่างจากข้อมูลเว็บและอื่น ๆ และในยุคของข้อมูลขนาดใหญ่คุณก็จะต้องเผชิญกับข้อมูลจากแหล่งต่างๆ ขั้นตอนแรกในการวิเคราะห์ข้อมูลของคุณคือการทำให้แน่ใจว่าคุณสามารถอ่านไฟล์ที่คุณได้รับได้

คุณต้องมองดูสิ่งที่แต่ละฟิลด์มีอยู่จริง ตัวอย่างเช่นจะไม่ฉลาดที่จะเชื่อว่าเพียงเพราะฟิลด์แสดงเป็นฟิลด์อักขระข้อมูลจะมีข้อมูลอักขระอยู่จริง

ตรวจสอบประเภทข้อมูล

ข้อมูลทั้งหมดจะอยู่ในหนึ่งในสี่ประเภทที่มีผลต่อสถิติประเภทใดที่คุณสามารถนำมาใช้ได้อย่างเหมาะสม:

ข้อมูลที่เป็นตัวเลขเป็นเพียงชื่อหรือตัวระบุเท่านั้น
ข้อมูลลำดับชั้นทำให้ระเบียนเป็นลำดับจากต่ำสุดถึงสูงสุด
ข้อมูลช่วงเป็นค่าที่มีความแตกต่างระหว่างกัน
ข้อมูล Ratio เป็นเหมือนข้อมูลช่วงยกเว้นว่าจะให้ค่าเป็น 0.

สิ่งสำคัญคือต้องเข้าใจว่าข้อมูลประเภทใดที่คุณตกอยู่ในข้อมูลก่อนที่คุณจะป้อนข้อมูลลงในซอฟต์แวร์ทางสถิติ มิเช่นนั้นคุณอาจเสี่ยงกับการสิ้นหวังที่อาจเกิดขึ้นได้

กราฟข้อมูลของคุณ

การรับรู้ว่าข้อมูลของคุณกระจายเป็นสิ่งสำคัญ คุณสามารถเรียกใช้ขั้นตอนทางสถิติจนกว่าคุณจะเผชิญหน้ากับสีน้ำเงิน แต่ไม่มีใครที่จะให้ข้อมูลเชิงลึกแก่ข้อมูลของคุณมากที่สุดเท่าที่จะเป็นข้อมูลง่ายๆ

ตรวจสอบความถูกต้องของข้อมูล

เมื่อคุณพอใจกับการจัดรูปแบบข้อมูลตามที่คุณต้องการแล้วคุณยังต้องตรวจสอบให้แน่ใจว่าถูกต้องและเหมาะสม ขั้นตอนนี้ต้องการให้คุณมีความรู้เกี่ยวกับพื้นที่เรื่องที่คุณกำลังทำงานอยู่

ไม่มีวิธีการตัดและแห้งเพื่อตรวจสอบความถูกต้องของข้อมูล แนวคิดพื้นฐานคือการกำหนดคุณสมบัติบางอย่างที่คุณคิดว่าข้อมูลควรแสดงและทดสอบข้อมูลเพื่อดูว่าคุณสมบัติเหล่านั้นมีอยู่หรือไม่ ราคาหุ้นเป็นบวกหรือไม่? รหัสผลิตภัณฑ์ทั้งหมดตรงกับรายการที่ถูกต้องหรือไม่? โดยพื้นฐานแล้วคุณกำลังพยายามหาข้อมูลว่าเป็นข้อมูลที่คุณได้รับจริงหรือไม่

ระบุค่าผิดปกติ

ค่าความผิดพลาดคือจุดข้อมูลที่ไม่ได้อยู่ในข้อมูลที่เหลือ ค่าเหล่านี้มีค่ามากหรือน้อยมากเมื่อเทียบกับส่วนที่เหลือของชุดข้อมูล

ค่าผิดพลาดเป็นปัญหาเนื่องจากสามารถประนีประนอมสถิติและขั้นตอนทางสถิติได้อย่างจริงจัง ค่าดีเอ็นเอเดียวอาจมีผลกระทบอย่างมากต่อค่าเฉลี่ย เนื่องจากค่าเฉลี่ยควรจะเป็นศูนย์กลางของข้อมูลในแง่นี้ตัวบ่งชี้นี้ทำให้หมายความว่าไม่มีประโยชน์

เมื่อต้องเผชิญกับความผิดปกติกลยุทธ์ที่พบมากที่สุดคือการลบออก ในบางกรณีคุณอาจต้องการนำไปพิจารณา ในกรณีเหล่านี้มักเป็นที่น่าพอใจที่จะทำการวิเคราะห์ของคุณสองครั้ง - ครั้งเดียวกับค่าผิดปกติที่รวมไว้และเมื่อมีการยกเว้น วิธีนี้ช่วยให้คุณสามารถประเมินวิธีการที่ให้ผลลัพธ์ที่เป็นประโยชน์มากขึ้น

จัดการกับค่าที่หายไป

ค่าที่หายไปเป็นปัญหาข้อมูลที่พบมากที่สุด (และน่ารำคาญ) ที่คุณจะพบ แรงกระตุ้นครั้งแรกของคุณอาจเป็นการลดระเบียนที่มีค่าที่หายไปจากการวิเคราะห์ของคุณ ปัญหาเกี่ยวกับเรื่องนี้ก็คือค่าที่หายไปมักไม่ได้เป็นเพียงข้อมูลสุ่มเพียงเล็กน้อยเท่านั้น

ตรวจสอบสมมติฐานของคุณเกี่ยวกับการกระจายข้อมูล

ขั้นตอนทางสถิติหลายวิธีขึ้นอยู่กับสมมติฐานว่าข้อมูลมีการแจกจ่ายในลักษณะที่กำหนด หากสมมติฐานดังกล่าวไม่เป็นเช่นนั้นความถูกต้องของการคาดการณ์ของคุณจะได้รับผลกระทบ

สมมติฐานที่พบบ่อยที่สุดสำหรับเทคนิคการสร้างแบบจำลองที่กล่าวถึงในหนังสือเล่มนี้คือข้อมูลมีการแจกแจงตามปกติ

หรือไม่ ในกรณีที่ข้อมูลไม่กระจายตามที่คุณต้องการให้ทั้งหมดไม่จำเป็นต้องสูญหาย มีหลายวิธีในการแปลงข้อมูลเพื่อให้การกระจายเป็นรูปทรงที่คุณต้องการ

วิธีหนึ่งที่ดีที่สุดในการตรวจสอบความถูกต้องของแบบจำลองทางสถิติคือการทดสอบกับข้อมูลเมื่อสร้าง วิธีหนึ่งที่จะทำคือการสุ่มแบ่งข้อมูลของคุณออกเป็นสองไฟล์ คุณอาจเรียกไฟล์เหล่านี้ว่า Analysis and Test ตามลำดับ

คุณจำเป็นต้องแบ่งข้อมูลออกแบบสุ่มเพื่อให้มีประสิทธิภาพ คุณไม่สามารถแยกข้อมูลชุดข้อมูลลงในครึ่งบนและครึ่งล่างตัวอย่างเช่น เกือบทุกไฟล์ข้อมูลจะเรียงลำดับอย่างใด - ตามวันที่ถ้าไม่มีอะไรอื่น นี้แนะนำรูปแบบระบบที่จะให้ส่วนต่างๆของไฟล์คุณสมบัติทางสถิติที่แตกต่างกัน เมื่อคุณแบ่งไฟล์แบบสุ่มคุณจะให้แต่ละระเบียนมีโอกาสเท่าเทียมกันในไฟล์ ตัวเลขคุณจะพลิกเหรียญสำหรับแต่ละระเบียนเพื่อตัดสินใจว่าไฟล์ใดที่จะเข้าสู่ การสุ่มให้ทั้งสองไฟล์มีคุณสมบัติทางสถิติเช่นเดียวกับข้อมูลต้นฉบับ

เมื่อคุณแบ่งข้อมูลแล้วให้เก็บไฟล์ Test ไว้ จากนั้นทำแบบจำลองการคาดการณ์ของคุณโดยใช้ไฟล์ Analysis เมื่อสร้างแบบจำลองแล้วให้นำไปใช้กับไฟล์ทดสอบและดูวิธีการทำงาน

รูปแบบการทดสอบในลักษณะนี้ช่วยป้องกันปรากฏการณ์ที่เรียกว่า over-fitting โดยพื้นฐานแล้วอาจเป็นไปได้ที่ขั้นตอนทางสถิติจะจดจำไฟล์ข้อมูลแทนที่จะค้นพบความสัมพันธ์ที่มีความหมายระหว่างตัวแปรต่างๆ หากมีการติดตั้งเกินขนาดรูปแบบจะทดสอบได้ไม่ดีเมื่อเทียบกับไฟล์ทดสอบ

สำรองข้อมูลและทำเอกสารทุกอย่างที่คุณทำ

เนื่องจากซอฟต์แวร์สถิติมีการใช้งานง่ายดังนั้นจึงเป็นชิ้นส่วนของเค้กที่จะเริ่มสร้างรายงานและกราฟโดยไม่ต้องพูดถึงไฟล์ข้อมูลคุณสามารถเรียกใช้กระบวนการอย่างแท้จริงได้เพียงกดปุ่ม คุณสามารถสร้างกราฟหลายโหลขึ้นอยู่กับการแปลงข้อมูลที่แตกต่างกันในเวลาไม่กี่นาที ทำให้ง่ายต่อการสูญเสียข้อมูลที่คุณได้ทำไปและทำไม

สิ่งสำคัญคือต้องตรวจสอบให้แน่ใจว่าคุณได้เขียนบันทึกว่าคุณกำลังทำอะไรอยู่ กราฟควรมีป้ายชื่อ (และรุ่น) ของข้อมูลที่ใช้ในการสร้าง ขั้นตอนทางสถิติที่คุณสร้างต้องได้รับการบันทึกและจัดทำเป็นเอกสาร

การสำรองไฟล์ข้อมูลของคุณเป็นสิ่งสำคัญเช่นกัน ในระหว่างการวิเคราะห์คุณอาจจะสร้างข้อมูลหลายเวอร์ชันซึ่งสะท้อนถึงการแก้ไขและการเปลี่ยนแปลงตัวแปรต่างๆ คุณควรบันทึกขั้นตอนที่สร้างเวอร์ชันเหล่านี้ไว้ พวกเขาควรได้รับการจัดทำเป็นเอกสารในรูปแบบที่อธิบายว่าคุณได้ทำอะไรและทำไม

เอกสารไม่ใช่งานที่ชื่นชอบของทุกคน แต่เราพูดจากประสบการณ์เมื่อเราขอแนะนำให้คุณอย่าพึ่งพาหน่วยความจำของคุณเมื่อพูดถึงโครงการวิเคราะห์ของคุณ

เมื่อทำตามขั้นตอนที่อธิบายไว้เพียงครั้งเดียวคุณจะเพิ่มความน่าเชื่อถือสูงสุดของโมเดลทางสถิติของคุณ ในหลาย ๆ กรณีการเตรียมงานเป็นเรื่องที่ต้องใช้เวลานานกว่าการสร้างแบบจำลองที่แท้จริง แต่ก็จำเป็น และคุณจะขอบคุณตัวเองในตอนท้ายสำหรับการทำงานผ่านมันมีระบบ