สารบัญ:
EDA มีพื้นฐานอยู่บน เทคนิคแบบกราฟิก คุณสามารถใช้เทคนิคแบบกราฟิกเพื่อระบุคุณสมบัติที่สำคัญที่สุดของชุดข้อมูล นี่คือบางส่วนของเทคนิคการใช้งานที่แพร่หลายมากขึ้น:
-
กล่องแปลง
-
ฮิสโตแกรม
-
แผนการแปลงความน่าจะเป็นปกติ
-
แปลงกระจาย
กล่องแปลง
คุณใช้กล่องแปลงเพื่อแสดงบางส่วนที่สำคัญที่สุด คุณลักษณะของชุดข้อมูลเช่นข้อมูลต่อไปนี้:
-
ค่าต่ำสุด
-
ค่าสูงสุด
-
ควอร์ไทล์
ควอร์ไทล์แยกชุดข้อมูลออกเป็นสี่ส่วนเท่า ๆ กัน ควอร์ไทล์ที่หนึ่ง (Q 1 ) มีค่าดังต่อไปนี้:
25 เปอร์เซ็นต์ของข้อสังเกตในชุดข้อมูลมีค่าน้อยกว่าควอร์ไทล์ที่หนึ่ง
75 เปอร์เซ็นต์ของข้อสังเกตมากกว่าควอร์ไทล์แรก
ควอไทล์ที่สอง (Q 2 ) เป็นค่าที่ทำให้
50 เปอร์เซ็นต์ของข้อสังเกตในชุดข้อมูลมีค่าน้อยกว่าควอร์ไทล์ที่สอง
50 เปอร์เซ็นต์ของข้อสังเกตมากกว่าควอร์ไทล์ที่สอง
ควอร์ไทล์ที่สองเรียกว่าค่ามัธยฐาน
ควอไทล์ที่สาม (Q 3 ) เป็นค่าที่
75 เปอร์เซ็นต์ของข้อสังเกตในชุดข้อมูลมีค่าน้อยกว่าไตรมาสที่สาม
25 เปอร์เซ็นต์ของข้อสังเกตมากกว่าควอร์ไทล์ที่สาม
นอกจากนี้คุณยังสามารถใช้กล่องแปลงเพื่อระบุความแตกต่าง ค่าเหล่านี้เป็นค่าที่แตกต่างจากส่วนที่เหลือของชุดข้อมูล ค่าผิดปกติอาจทำให้เกิดปัญหาในการทดสอบทางสถิติแบบเดิมดังนั้นคุณจึงต้องระบุข้อมูลก่อนที่จะทำการวิเคราะห์ทางสถิติประเภทใด ๆ
ฮิสโตแกรม
คุณใช้ฮิสโตแกรมเพื่อทำความเข้าใจเกี่ยวกับการกระจายความน่าจะเป็นที่ชุดข้อมูลต่อไปนี้ ด้วยฮิสโตแกรมชุดข้อมูลจะจัดเป็นชุดของค่าแต่ละค่าหรือช่วงของค่าแต่ละค่าจะแสดงโดยแถบแนวตั้ง ความสูงของแถบแสดงค่าหรือช่วงของค่าที่บ่อยครั้ง ด้วยฮิสโตแกรมคุณจะเห็นได้ง่ายว่าข้อมูลมีการกระจายอย่างไร
แปลงกระจาย
พล็อตกระจายคือชุดของจุดที่แสดงให้เห็นว่าสองตัวแปรมีความสัมพันธ์กันอย่างไร การกระจายจุดที่สุ่มชี้ให้เห็นว่าทั้งสองตัวแปรไม่สัมพันธ์กันหรือความสัมพันธ์ระหว่างพวกเขาอ่อนแอมาก ถ้าจุดใกล้เคียงกับเส้นตรงนี้แสดงให้เห็นว่าความสัมพันธ์ระหว่างสองตัวแปรมีค่าประมาณ เป็นเส้นตรง
สองตัวแปรมีความเกี่ยวเนื่องเชิงเส้นถ้าสามารถอธิบายได้ด้วยสมการ Y = mX + b X
เป็นตัวแปรอิสระและ Y เป็นตัวแปรตาม m คือความลาดชัน ซึ่งหมายถึงการเปลี่ยนแปลง Y เนื่องจากการเปลี่ยนแปลงที่กำหนดใน X คือ ตัด ซึ่งแสดงค่า Y เมื่อ X เท่ากับศูนย์ ภาพแสดงพล็อตกระจายระหว่างสองตัวแปรที่ความสัมพันธ์ปรากฏเป็นเส้นตรง
พล็อตกระจายของความสัมพันธ์เชิงเส้น
จุดบนจุดกระจายเกือบจะเป็นเส้นตรง เลี้ยวไปทางซ้ายเล็กน้อยและโค้งไปทางขวาเล็กน้อย แต่ตรงไปเรื่อย ๆ นี่แสดงให้เห็นว่าความสัมพันธ์เป็นเส้นตรงมีความชันบวกรูปต่อไปนี้แสดงพล็อตกระจายระหว่างสองตัวแปรซึ่ง
Y ดูเหมือนจะเพิ่มขึ้นอย่างรวดเร็วกว่า X พล็อตกระจายของความสัมพันธ์ที่ไม่ใช่เชิงเส้น
ดูเส้นโค้งหรือไม่? ความสัมพันธ์นี้ไม่ได้เป็นเส้นตรง ในความเป็นจริงเป็นความสัมพันธ์แบบสองขั้น ความสัมพันธ์แบบสองกำลังใช้รูปแบบY = aX 2 + b X + c รูปต่อไปนี้แสดงแผนภาพการกระจายที่ไม่มีความสัมพันธ์ระหว่าง
X และ Y X
และ Y "พล็อตกระจายที่ไม่มีความสัมพันธ์ระหว่างตัวแปร X และ Y ตัวแปรในพล็อตกระจายที่แสดง ไม่เกี่ยวข้อง < หรือเป็นอิสระ คุณสามารถดูได้โดยไม่มีรูปแบบใด ๆ ในข้อมูล นอกเหนือจากการแสดงความสัมพันธ์ระหว่างตัวแปรสองตัวแปรพล็อตที่กระจายยังสามารถแสดงถึงความผิดปกติได้ด้วย รูปดังต่อไปนี้แสดงชุดข้อมูลที่มีข้อสังเกตเดียวซึ่งแตกต่างจากข้อสังเกตอื่น ๆ อย่างมาก พล็อตการกระจายด้วยค่าผิดปรกติ ต้องมีการตรวจสอบจุดเริ่มต้นอีกครั้งเพื่อพิจารณาว่าเป็นผลมาจากข้อผิดพลาดหรือปัญหาอื่น ๆ อาจเป็นไปได้ว่าผู้เอาประกันภัยจะต้องถูกนำออกจากข้อมูล
แผนการแปลงความน่าจะเป็นปกติ
แผนการแปลงความน่าจะเป็นปกติถูกใช้เพื่อดูว่าองค์ประกอบของชุดข้อมูลมีความสอดคล้องกันมากน้อยเพียงใดตามสมมติฐานปกติคือ ทั่วไปในหลายสาขาวิชาตัวอย่างเช่นมักจะสันนิษฐานว่าในด้านการเงินและเศรษฐศาสตร์ที่ r eturns ไปยังหุ้นมีการกระจายตามปกติ สมมติฐานของภาวะปกติจะสะดวกมากและมีการทดสอบทางสถิติหลายอย่างบนสมมติฐานนี้
การใช้การทดสอบทางสถิติที่ถือว่าเป็นปกติกับ
ชุดข้อมูลที่ไม่ปกติ จะให้ผลลัพธ์ที่น่าสงสัยมาก ดังนั้นจึงเป็นเรื่องสำคัญที่จะต้องพิจารณาว่าข้อมูลมีการแจกแจงตามปกติหรือไม่ก่อนที่จะทำการทดสอบทางสถิติเหล่านี้