บ้าน การเงินส่วนบุคคล การจัดเตรียมข้อมูลของคุณสำหรับ Predictive Analytics - Dummies

การจัดเตรียมข้อมูลของคุณสำหรับ Predictive Analytics - Dummies

สารบัญ:

Anonim

เมื่อคุณกำหนดวัตถุประสงค์ของโมเดลแล้วขั้นตอนต่อไปในการวิเคราะห์เชิงคาดการณ์คือการระบุและเตรียมข้อมูลที่คุณจะใช้ในการสร้างโมเดลของคุณ ข้อมูลต่อไปนี้จะกล่าวถึงกิจกรรมที่สำคัญที่สุด ลำดับขั้นตอนทั่วไปมีลักษณะดังนี้:

  1. ระบุแหล่งข้อมูลของคุณ

    ข้อมูลอาจอยู่ในรูปแบบต่างๆหรืออาศัยอยู่ในสถานที่ต่างๆ

  2. ระบุว่าคุณจะเข้าถึงข้อมูลนั้นได้อย่างไร

    บางครั้งคุณจำเป็นต้องได้รับข้อมูลจากบุคคลที่สามหรือข้อมูลที่เป็นของแผนกต่างๆในองค์กรของคุณ ฯลฯ

  3. พิจารณาตัวแปรที่จะรวมไว้ในการวิเคราะห์ของคุณ

    วิธีการหนึ่งมาตรฐานคือการเริ่มต้นด้วยตัวแปรที่หลากหลายและกำจัดสิ่งที่ไม่สามารถคาดการณ์ได้สำหรับแบบจำลอง

  4. ตรวจสอบว่าจะใช้ตัวแปรที่ได้มาหรือไม่

    ในหลาย ๆ กรณีตัวแปรที่ได้รับ (เช่นอัตราส่วนราคาต่อรายได้ที่ใช้ในการวิเคราะห์ราคาหุ้น) จะมีผลโดยตรงต่อรูปแบบมากกว่าตัวแปรดิบ

  5. สำรวจคุณภาพข้อมูลของคุณพยายามทำความเข้าใจกับทั้งรัฐและข้อ จำกัด

    ความถูกต้องของการคาดคะเนของรูปแบบจะเกี่ยวข้องโดยตรงกับตัวแปรที่คุณเลือกและคุณภาพข้อมูลของคุณ คุณต้องการตอบคำถามเฉพาะข้อมูลบางส่วน ณ จุดนี้:

    • ข้อมูลมีข้อมูลครบถ้วนหรือไม่?
    • มีข้อผิดพลาดหรือไม่?
    • ข้อมูลต้องทำความสะอาดหรือไม่?
    • คุณจำเป็นต้องเติมค่าที่ขาดหายไปเก็บไว้ตามที่เป็นอยู่หรือลบออกทั้งหมดหรือไม่?

การทำความเข้าใจข้อมูลและคุณสมบัติของข้อมูลจะช่วยให้คุณเลือกอัลกอริทึมที่จะเป็นประโยชน์มากที่สุดในการสร้างโมเดลของคุณ ตัวอย่างเช่น:

  • อัลกอริทึมการถดถอยสามารถใช้ในการวิเคราะห์ข้อมูลแบบอนุกรมได้
  • อัลกอริทึ่มการจำแนกประเภทสามารถใช้ในการวิเคราะห์ข้อมูลแบบไม่ต่อเนื่อง
  • สามารถใช้อัลกอริทึมของสมาคมสำหรับข้อมูลที่มีคุณลักษณะที่เกี่ยวโยงกันได้

อัลกอริทึมแต่ละตัวและเทคนิคการทำนายมีจุดอ่อนและจุดแข็งที่แตกต่างกัน ที่สำคัญที่สุดความถูกต้องของแบบจำลองนั้นขึ้นอยู่กับการมีทั้งปริมาณและคุณภาพของข้อมูล ข้อมูลของคุณควรมีจำนวนระเบียนที่เพียงพอเพื่อให้ได้ผลที่มีนัยสำคัญทางสถิติ

การรวบรวมข้อมูลที่เกี่ยวข้อง (โดยเฉพาะบันทึกจำนวนมากในช่วงระยะเวลาที่ยาวนาน) การประมวลผลล่วงหน้าและการแยกแยะคุณลักษณะที่มีค่าคาดการณ์มากที่สุดจะเป็นที่ที่คุณใช้เวลาส่วนใหญ่ แต่คุณยังต้องเลือกอัลกอริทึมอย่างชาญฉลาดซึ่งเป็นอัลกอริทึมที่เหมาะสมกับปัญหาทางธุรกิจ

การเตรียมข้อมูลมีความเฉพาะเจาะจงกับโครงการที่คุณกำลังทำงานและขั้นตอนวิธีที่คุณเลือกใช้ขึ้นอยู่กับความต้องการของโครงการคุณจะเตรียมข้อมูลให้เหมาะสมและป้อนข้อมูลให้กับอัลกอริทึมขณะที่คุณสร้างแบบจำลองเพื่อตอบสนองความต้องการทางธุรกิจ

ชุดข้อมูลที่ใช้ในการฝึกอบรมและทดสอบโมเดลต้องมีข้อมูลทางธุรกิจที่เกี่ยวข้องเพื่อตอบปัญหาที่คุณกำลังพยายามแก้ไข หากเป้าหมายของคุณคือ (ตัวอย่าง) เพื่อพิจารณาว่าลูกค้ารายใดมีแนวโน้มที่จะปั่นป่วนจากนั้นชุดข้อมูลที่คุณเลือกจะต้องมีข้อมูลเกี่ยวกับลูกค้าที่ปั่นป่วนในอดีตนอกเหนือจากลูกค้าที่ไม่ได้ใช้บริการ

บางโมเดลที่สร้างขึ้นเพื่อการทำเหมืองข้อมูลและทำความเข้าใจเกี่ยวกับความสัมพันธ์ที่เป็นรากฐานของตัวเองตัวอย่างเช่นโครงสร้างที่สร้างขึ้นด้วยอัลกอริทึ่มการจัดกลุ่มไม่จำเป็นต้องมีผลในใจ

Underfitting

Underfitting คือเมื่อโมเดลของคุณไม่สามารถตรวจพบความสัมพันธ์ใด ๆ ในข้อมูลของคุณได้ นี่เป็นข้อบ่งชี้ว่าตัวแปรที่สำคัญซึ่ง ได้แก่ ผู้ที่มีอำนาจในการคาดการณ์ไม่ได้รวมอยู่ในการวิเคราะห์ของคุณ

หากตัวแปรที่ใช้ในโมเดลของคุณไม่มีอำนาจการคาดการณ์ที่สูงให้ลองเพิ่มตัวแปรเฉพาะของโดเมนใหม่และเรียกใช้โมเดลของคุณอีกครั้ง เป้าหมายสุดท้ายคือการปรับปรุงประสิทธิภาพของโมเดลในข้อมูลการฝึกอบรม

ปัญหาที่ควรระวังก็คือ ฤดูกาล (เมื่อคุณมีรูปแบบตามฤดูกาลหากคุณไม่สามารถวิเคราะห์หลาย ๆ ฤดูกาลได้อาจมีปัญหา) ตัวอย่างเช่นการวิเคราะห์หุ้นที่มีเฉพาะข้อมูลจากวัว (ซึ่งราคาหุ้นโดยรวมเพิ่มขึ้น) ไม่ได้เป็นสาเหตุของวิกฤตการณ์หรือฟองสบู่ที่อาจนำมาซึ่งการแก้ไขที่สำคัญต่อประสิทธิภาพโดยรวมของหุ้น การไม่รวมข้อมูลที่ครอบคลุมทั้งตลาดหมี และ แบกหมี (เมื่อราคาหุ้นโดยรวมลดลง) ทำให้โมเดลไม่สามารถเลือกพอร์ตโฟลิโอที่ดีที่สุด

การสวมใส่ที่น้อยเกินไป

การโอเวอร์มาก คือเมื่อโมเดลของคุณมีข้อมูลที่ไม่มีอำนาจคาดการณ์ แต่เฉพาะข้อมูลที่คุณกำลังวิเคราะห์เท่านั้น เสียงรบกวน - รูปแบบสุ่มในชุดข้อมูล - สามารถหาทางเข้าสู่รูปแบบได้เช่นการเรียกใช้โมเดลบนชุดข้อมูลอื่นทำให้เกิดการลดลงอย่างมากในประสิทธิภาพและความแม่นยำในการคาดการณ์ของโมเดล

การจัดเตรียมข้อมูลของคุณสำหรับ Predictive Analytics - Dummies

ตัวเลือกของบรรณาธิการ

ใช้สำเนียงกระดาษในการจัดเตรียมอาหารและการถ่ายภาพอาหาร - มัดหนังสือ

ใช้สำเนียงกระดาษในการจัดเตรียมอาหารและการถ่ายภาพอาหาร - มัดหนังสือ

สำเนียงกระดาษเช่นอุปกรณ์และของตกแต่งอื่น ๆ สามารถนำเสนออาหารได้อย่างดีสำหรับกล้องในรูปแบบอาหารและภาพถ่ายอาหารของคุณ เอกสารที่ละเอียดอ่อนเหล่านี้อาจเป็นสำเนียงเล็ก ๆ น้อย ๆ ที่สมบูรณ์แบบสำหรับการตั้งค่าการถ่ายภาพธรรมดาและบางครั้งก็น่าเบื่อ ถ้าใช้แบบดั้งเดิมตุ๊กตาหมุดก็ไม่ใช่ของคุณหรือถ้าคุณกำลังมองหาบางสิ่งบางอย่าง ...

ใช้ขาตั้งกล้องเพื่อลดการสั่นของกล้อง - มัมมี่

ใช้ขาตั้งกล้องเพื่อลดการสั่นของกล้อง - มัมมี่

ในการถ่ายภาพระยะใกล้และระยะใกล้มากที่สุด อุปสรรคยากที่จะเอาชนะ คุณอาจพบวัตถุที่เคลื่อนที่ (เช่นผึ้งยุ่ง) กล้องของคุณอาจสั่นสะเทือนในระหว่างการรับแสงเนื่องจากสาเหตุต่างๆและลมอาจทำให้ทุกสิ่งในฉากของคุณเคลื่อนที่ได้ การจัดการกับท่าทางของคุณขึ้นอยู่กับเรื่องของคุณ ...

การใช้ภาพถ่ายและผ้าลินินเพื่อจัดเตรียมอาหารและการถ่ายภาพอาหาร - มัมมี่

การใช้ภาพถ่ายและผ้าลินินเพื่อจัดเตรียมอาหารและการถ่ายภาพอาหาร - มัมมี่

ห้องสมุดสำหรับตกแต่งบ้านที่มีสินค้า เช่นจานและผ้าสำหรับธุรกิจถ่ายภาพอาหารช่วยให้คุณสามารถจัดรูปถ่ายของคุณได้ ขณะที่คุณรวบรวมอาหารผ้าเช็ดปากและสิ่งอื่น ๆ เก็บไว้ในบ้านหรือในสตูดิโอเพื่อจัดระเบียบและจัดเก็บวัสดุของคุณ การเก็บเข้าลิ้นชักโลหะอุตสาหกรรมทำได้ดีและช่วยให้คุณเห็นทุกอย่าง ...

ตัวเลือกของบรรณาธิการ

การเพิ่มข้อมูลลงในภาพเดียวบน Canon EOS 6D ของคุณ - หุ่น

การเพิ่มข้อมูลลงในภาพเดียวบน Canon EOS 6D ของคุณ - หุ่น

ข้อมูลเมตามีประสิทธิภาพมาก เมื่อคุณเพิ่มข้อมูลเมตาลงในรูปภาพใน EOS 6D จะหาได้ง่ายขึ้น ข้อมูลนี้สามารถใช้งานได้หากคุณตัดสินใจแยกสาขาออกและพยายามขายรูปภาพบางส่วนในหน่วยงานภาพสต็อก ข้อมูลเมตายิ่งมีมากเท่าไหร่ก็ยิ่งหาได้ง่ายกว่า ...

การปรับช่องมองภาพบนกล้อง Canon EOS 70D - Dummies

การปรับช่องมองภาพบนกล้อง Canon EOS 70D - Dummies

ใน Canon EOS 70D, ใกล้ด้านขวาบนของสายยางที่ล้อมรอบช่องมองภาพเป็นปุ่มหมุน (ดูรูปต่อไปนี้) ที่ช่วยให้คุณปรับโฟกัสของช่องมองภาพให้ตรงกับสายตาของคุณ ปุ่มหมุนนี้เป็นที่รู้จักอย่างเป็นทางการว่าเป็นตัวควบคุมการปรับสายตา หากไม่ใช้ขั้นตอนนี้ฉากที่ปรากฏ ...

ตัวเลือกของบรรณาธิการ

สิ่งที่ควรค้นหาในซอฟต์แวร์การถ่ายภาพ HDR - ดัมมี่

สิ่งที่ควรค้นหาในซอฟต์แวร์การถ่ายภาพ HDR - ดัมมี่

องค์ประกอบที่สำคัญที่สุดของการถ่ายภาพแบบไดนามิกสูงคือ ไม่แปลกใจที่แอพพลิเคชันซอฟต์แวร์ HDR นี่คือสิ่งที่คุณใช้ในการเปลี่ยนภาพถ่ายที่ถ่ายคร่อมของคุณ (และการเปิดรับแสงดิบแบบดิบเพียงครั้งเดียวสำหรับ pseudo-HDR) ในภาพช่วงไดนามิคสูงและแผนที่โทนเพื่อสร้างภาพที่มีความอิ่มตัวและดึงดูดความสนใจดังที่แสดงในภาพนี้ ใช้เวลาลอง ...

เมื่อต้องการแปลง HDR เป็นขาวดำ - ม้วน

เมื่อต้องการแปลง HDR เป็นขาวดำ - ม้วน

หนึ่งตัวเลือกเพื่อสร้างสีดำและสีขาวสูง ภาพช่วงไดนามิก (HDR) คือการแปลงภาพถ่ายสีของคุณให้เป็นขาวดำก่อนใช้ภาพเหล่านี้เพื่อสร้างภาพ HDR คุณมีสองตัวเลือกเพื่อเลือกว่านี่คือทิศทางที่คุณต้องการหรือไม่: แปลงระหว่าง Conversion ดิบ แปลงระหว่างการทำแผนที่โทน หากเลือก ...

สิ่งที่ควรนำมาสู่การถ่ายภาพอาหารนอกสถานที่ - มัมมี่

สิ่งที่ควรนำมาสู่การถ่ายภาพอาหารนอกสถานที่ - มัมมี่

รายการตรวจสอบคือ เพียงวิธีเดียวในการจดจำทุกอย่างที่คุณต้องการสำหรับการถ่ายภาพอาหารนอกสถานที่ขนาดใหญ่ เมื่อเขียนรายการตรวจสอบลองพิจารณาด้านต่างๆของการถ่ายทำที่กำลังจะเกิดขึ้น รายการที่ครอบคลุมมากขึ้นดีกว่า จดจำพื้นฐานสำหรับการจัดเตรียมอาหารและการถ่ายภาพอย่าลืมข้อมูลเบื้องต้นเกี่ยวกับชุดของคุณ ...