สารบัญ:
เมื่อคุณได้กำหนดวัตถุประสงค์ของรูปแบบสำหรับการวิเคราะห์เชิงคาดการณ์ขั้นตอนต่อไปคือการระบุและเตรียมข้อมูลที่คุณจะใช้เพื่อสร้างโมเดลของคุณ ลำดับขั้นตอนทั่วไปมีลักษณะดังนี้:
-
ระบุแหล่งข้อมูลของคุณ
ข้อมูลอาจอยู่ในรูปแบบต่างๆหรืออาศัยอยู่ในสถานที่ต่างๆ
-
ระบุว่าคุณจะเข้าถึงข้อมูลนั้นได้อย่างไร
บางครั้งคุณจำเป็นต้องได้รับข้อมูลจากบุคคลที่สามหรือข้อมูลที่เป็นของแผนกต่างๆในองค์กรของคุณ ฯลฯ
-
พิจารณาตัวแปรที่จะรวมไว้ในการวิเคราะห์ของคุณ
วิธีการหนึ่งมาตรฐานคือการเริ่มต้นด้วยตัวแปรที่หลากหลายและกำจัดสิ่งที่ไม่สามารถคาดการณ์ได้สำหรับรุ่น
-
กำหนดว่าจะใช้ตัวแปรที่ได้มาหรือไม่
ในหลายกรณีตัวแปรที่ได้รับ (เช่นอัตราส่วนราคาต่อรายได้ที่ใช้ในการวิเคราะห์ราคาหุ้น) จะมีผลโดยตรงต่อรูปแบบมากกว่าตัวแปรดิบ
-
สำรวจคุณภาพข้อมูลของคุณพยายามทำความเข้าใจกับทั้งรัฐและข้อ จำกัด
ความถูกต้องของการคาดคะเนของรูปแบบจะเกี่ยวข้องโดยตรงกับตัวแปรที่คุณเลือกและคุณภาพข้อมูลของคุณ คุณต้องการตอบคำถามเฉพาะข้อมูลบางส่วน ณ จุดนี้:
-
ข้อมูลมีข้อมูลครบถ้วนหรือไม่?
-
มีข้อผิดพลาดหรือไม่?
-
ข้อมูลต้องทำความสะอาดหรือไม่?
-
คุณจำเป็นต้องเติมค่าที่ขาดหายไปเก็บไว้ตามที่เป็นอยู่หรือกำจัดออกทั้งหมด?
-
การทำความเข้าใจข้อมูลและคุณสมบัติของข้อมูลจะช่วยให้คุณเลือกอัลกอริทึมที่จะเป็นประโยชน์มากที่สุดในการสร้างโมเดลของคุณ ตัวอย่างเช่น:
-
อัลกอริทึมการถดถอยสามารถใช้ในการวิเคราะห์ข้อมูลแบบอนุกรมได้
-
อัลกอริทึ่มการจำแนกประเภทสามารถใช้ในการวิเคราะห์ข้อมูลแบบไม่ต่อเนื่อง
-
สามารถใช้อัลกอริทึมของสมาคมสำหรับข้อมูลที่มีคุณลักษณะที่เกี่ยวโยงกันได้
ชุดข้อมูลที่ใช้ในการฝึกอบรมและทดสอบโมเดลต้องมีข้อมูลทางธุรกิจที่เกี่ยวข้องเพื่อตอบปัญหาที่คุณกำลังพยายามแก้ไข หากเป้าหมายของคุณคือ (ตัวอย่าง) เพื่อพิจารณาว่าลูกค้ารายใดมีแนวโน้มที่จะปั่นป่วนจากนั้นชุดข้อมูลที่คุณเลือกจะต้องมีข้อมูลเกี่ยวกับลูกค้าที่ปั่นป่วนในอดีตนอกเหนือจากลูกค้าที่ไม่ได้ใช้บริการ
บางโมเดลที่สร้างขึ้นเพื่อการทำเหมืองข้อมูลและทำความเข้าใจเกี่ยวกับความสัมพันธ์ที่เป็นรากฐานของตัวเองตัวอย่างเช่นโครงสร้างที่สร้างขึ้นด้วยอัลกอริทึ่มการจัดกลุ่มไม่จำเป็นต้องมีผลในใจ
มีปัญหาสองอย่างเกิดขึ้นเมื่อจัดการกับข้อมูลขณะที่คุณสร้างโมเดลของคุณ: underfitting และ overfitting
Underfitting
Underfitting คือเมื่อโมเดลของคุณไม่สามารถตรวจพบความสัมพันธ์ใด ๆ ในข้อมูลของคุณได้นี่เป็นข้อบ่งชี้ว่าตัวแปรที่สำคัญซึ่ง ได้แก่ ผู้ที่มีอำนาจในการคาดการณ์ไม่ได้รวมอยู่ในการวิเคราะห์ของคุณ ตัวอย่างเช่นการวิเคราะห์หุ้นที่มีเฉพาะข้อมูลจากตลาดวัว (ที่ราคาหุ้นโดยรวมเพิ่มขึ้น) จะไม่ส่งผลกระทบต่อวิกฤตการณ์หรือฟองสบู่ที่อาจนำมาซึ่งการแก้ไขที่สำคัญต่อประสิทธิภาพโดยรวมของหุ้น
การไม่รวมข้อมูลที่ครอบคลุมทั้งตลาดหมี และ (เมื่อราคาหุ้นร่วงลง) ทำให้โมเดลไม่สามารถเลือกพอร์ตโฟลิโอที่ดีที่สุด
การใส่เกิน
การใส่มากเกินไป คือเมื่อโมเดลของคุณมีข้อมูลที่ไม่มีอำนาจคาดการณ์ แต่เฉพาะเจาะจงกับชุดข้อมูลที่คุณกำลังวิเคราะห์เท่านั้น เสียงรบกวน - รูปแบบต่างๆในชุดข้อมูล - สามารถหาทางเข้าไปในโมเดลได้เช่นการเรียกใช้โมเดลบนชุดข้อมูลอื่นทำให้เกิดการลดลงอย่างมากในประสิทธิภาพและความแม่นยำในการคาดการณ์ของโมเดล แถบด้านข้างประกอบเป็นตัวอย่าง
หากโมเดลของคุณทำงานได้ดีกับชุดข้อมูลเฉพาะและมีประสิทธิภาพต่ำกว่าเมื่อคุณทดสอบบนชุดข้อมูลที่แตกต่างกันให้ถือว่าเกินพิกัด