การจัดเตรียมข้อมูลของคุณสำหรับ Predictive Analytics - Dummies

เมื่อคุณกำหนดวัตถุประสงค์ของโมเดลแล้วขั้นตอนต่อไปในการวิเคราะห์เชิงคาดการณ์คือการระบุและเตรียมข้อมูลที่คุณจะใช้ในการสร้างโมเดลของคุณ ข้อมูลต่อไปนี้จะกล่าวถึงกิจกรรมที่สำคัญที่สุด ลำดับขั้นตอนทั่วไปมีลักษณะดังนี้:

ระบุแหล่งข้อมูลของคุณ

ข้อมูลอาจอยู่ในรูปแบบต่างๆหรืออาศัยอยู่ในสถานที่ต่างๆ
ระบุว่าคุณจะเข้าถึงข้อมูลนั้นได้อย่างไร

บางครั้งคุณจำเป็นต้องได้รับข้อมูลจากบุคคลที่สามหรือข้อมูลที่เป็นของแผนกต่างๆในองค์กรของคุณ ฯลฯ
พิจารณาตัวแปรที่จะรวมไว้ในการวิเคราะห์ของคุณ
วิธีการหนึ่งมาตรฐานคือการเริ่มต้นด้วยตัวแปรที่หลากหลายและกำจัดสิ่งที่ไม่สามารถคาดการณ์ได้สำหรับแบบจำลอง
ตรวจสอบว่าจะใช้ตัวแปรที่ได้มาหรือไม่

ในหลาย ๆ กรณีตัวแปรที่ได้รับ (เช่นอัตราส่วนราคาต่อรายได้ที่ใช้ในการวิเคราะห์ราคาหุ้น) จะมีผลโดยตรงต่อรูปแบบมากกว่าตัวแปรดิบ
สำรวจคุณภาพข้อมูลของคุณพยายามทำความเข้าใจกับทั้งรัฐและข้อ จำกัด

ความถูกต้องของการคาดคะเนของรูปแบบจะเกี่ยวข้องโดยตรงกับตัวแปรที่คุณเลือกและคุณภาพข้อมูลของคุณ คุณต้องการตอบคำถามเฉพาะข้อมูลบางส่วน ณ จุดนี้:
- ข้อมูลมีข้อมูลครบถ้วนหรือไม่?
- มีข้อผิดพลาดหรือไม่?
- ข้อมูลต้องทำความสะอาดหรือไม่?
- คุณจำเป็นต้องเติมค่าที่ขาดหายไปเก็บไว้ตามที่เป็นอยู่หรือลบออกทั้งหมดหรือไม่?

การทำความเข้าใจข้อมูลและคุณสมบัติของข้อมูลจะช่วยให้คุณเลือกอัลกอริทึมที่จะเป็นประโยชน์มากที่สุดในการสร้างโมเดลของคุณ ตัวอย่างเช่น:

อัลกอริทึมการถดถอยสามารถใช้ในการวิเคราะห์ข้อมูลแบบอนุกรมได้
อัลกอริทึ่มการจำแนกประเภทสามารถใช้ในการวิเคราะห์ข้อมูลแบบไม่ต่อเนื่อง
สามารถใช้อัลกอริทึมของสมาคมสำหรับข้อมูลที่มีคุณลักษณะที่เกี่ยวโยงกันได้

อัลกอริทึมแต่ละตัวและเทคนิคการทำนายมีจุดอ่อนและจุดแข็งที่แตกต่างกัน ที่สำคัญที่สุดความถูกต้องของแบบจำลองนั้นขึ้นอยู่กับการมีทั้งปริมาณและคุณภาพของข้อมูล ข้อมูลของคุณควรมีจำนวนระเบียนที่เพียงพอเพื่อให้ได้ผลที่มีนัยสำคัญทางสถิติ

การรวบรวมข้อมูลที่เกี่ยวข้อง (โดยเฉพาะบันทึกจำนวนมากในช่วงระยะเวลาที่ยาวนาน) การประมวลผลล่วงหน้าและการแยกแยะคุณลักษณะที่มีค่าคาดการณ์มากที่สุดจะเป็นที่ที่คุณใช้เวลาส่วนใหญ่ แต่คุณยังต้องเลือกอัลกอริทึมอย่างชาญฉลาดซึ่งเป็นอัลกอริทึมที่เหมาะสมกับปัญหาทางธุรกิจ

การเตรียมข้อมูลมีความเฉพาะเจาะจงกับโครงการที่คุณกำลังทำงานและขั้นตอนวิธีที่คุณเลือกใช้ขึ้นอยู่กับความต้องการของโครงการคุณจะเตรียมข้อมูลให้เหมาะสมและป้อนข้อมูลให้กับอัลกอริทึมขณะที่คุณสร้างแบบจำลองเพื่อตอบสนองความต้องการทางธุรกิจ

ชุดข้อมูลที่ใช้ในการฝึกอบรมและทดสอบโมเดลต้องมีข้อมูลทางธุรกิจที่เกี่ยวข้องเพื่อตอบปัญหาที่คุณกำลังพยายามแก้ไข หากเป้าหมายของคุณคือ (ตัวอย่าง) เพื่อพิจารณาว่าลูกค้ารายใดมีแนวโน้มที่จะปั่นป่วนจากนั้นชุดข้อมูลที่คุณเลือกจะต้องมีข้อมูลเกี่ยวกับลูกค้าที่ปั่นป่วนในอดีตนอกเหนือจากลูกค้าที่ไม่ได้ใช้บริการ

บางโมเดลที่สร้างขึ้นเพื่อการทำเหมืองข้อมูลและทำความเข้าใจเกี่ยวกับความสัมพันธ์ที่เป็นรากฐานของตัวเองตัวอย่างเช่นโครงสร้างที่สร้างขึ้นด้วยอัลกอริทึ่มการจัดกลุ่มไม่จำเป็นต้องมีผลในใจ

Underfitting

Underfitting คือเมื่อโมเดลของคุณไม่สามารถตรวจพบความสัมพันธ์ใด ๆ ในข้อมูลของคุณได้ นี่เป็นข้อบ่งชี้ว่าตัวแปรที่สำคัญซึ่ง ได้แก่ ผู้ที่มีอำนาจในการคาดการณ์ไม่ได้รวมอยู่ในการวิเคราะห์ของคุณ

หากตัวแปรที่ใช้ในโมเดลของคุณไม่มีอำนาจการคาดการณ์ที่สูงให้ลองเพิ่มตัวแปรเฉพาะของโดเมนใหม่และเรียกใช้โมเดลของคุณอีกครั้ง เป้าหมายสุดท้ายคือการปรับปรุงประสิทธิภาพของโมเดลในข้อมูลการฝึกอบรม

ปัญหาที่ควรระวังก็คือ ฤดูกาล (เมื่อคุณมีรูปแบบตามฤดูกาลหากคุณไม่สามารถวิเคราะห์หลาย ๆ ฤดูกาลได้อาจมีปัญหา) ตัวอย่างเช่นการวิเคราะห์หุ้นที่มีเฉพาะข้อมูลจากวัว (ซึ่งราคาหุ้นโดยรวมเพิ่มขึ้น) ไม่ได้เป็นสาเหตุของวิกฤตการณ์หรือฟองสบู่ที่อาจนำมาซึ่งการแก้ไขที่สำคัญต่อประสิทธิภาพโดยรวมของหุ้น การไม่รวมข้อมูลที่ครอบคลุมทั้งตลาดหมี และ แบกหมี (เมื่อราคาหุ้นโดยรวมลดลง) ทำให้โมเดลไม่สามารถเลือกพอร์ตโฟลิโอที่ดีที่สุด

การสวมใส่ที่น้อยเกินไป

การโอเวอร์มาก คือเมื่อโมเดลของคุณมีข้อมูลที่ไม่มีอำนาจคาดการณ์ แต่เฉพาะข้อมูลที่คุณกำลังวิเคราะห์เท่านั้น เสียงรบกวน - รูปแบบสุ่มในชุดข้อมูล - สามารถหาทางเข้าสู่รูปแบบได้เช่นการเรียกใช้โมเดลบนชุดข้อมูลอื่นทำให้เกิดการลดลงอย่างมากในประสิทธิภาพและความแม่นยำในการคาดการณ์ของโมเดล