สารบัญ:
- การสร้างข้อมูลที่ได้มา
- ข้อมูลที่ใช้ในโมเดลการคาดการณ์จะรวบรวมจากหลายแหล่ง การวิเคราะห์ของคุณสามารถดึงข้อมูลที่กระจายอยู่ในรูปแบบไฟล์และฐานข้อมูลหลายรูปแบบหรือหลายตารางภายในฐานข้อมูลเดียวกัน การรวมข้อมูลเข้าด้วยกันและรวมไว้ในรูปแบบครบวงจรสำหรับผู้สร้างแบบจำลองข้อมูลจะใช้เป็นสิ่งจำเป็น
ในขั้นตอนการสำรวจนี้ในการวิเคราะห์เชิงคาดการณ์คุณจะได้รับความรู้ที่ลึกซึ้งเกี่ยวกับข้อมูลของคุณซึ่งจะช่วยให้คุณสามารถเลือกตัวแปรที่เกี่ยวข้องในการวิเคราะห์ได้ ความเข้าใจนี้จะช่วยให้คุณสามารถประเมินผลของแบบจำลองได้ แต่ก่อนอื่นคุณต้องระบุและทำความสะอาดข้อมูลเพื่อการวิเคราะห์
การสร้างข้อมูลที่ได้มา
แอตทริบิวต์ที่ได้รับ เป็นระเบียนใหม่ทั้งหมดที่สร้างจากแอตทริบิวต์ที่มีอยู่อย่างน้อยหนึ่งรายการ ตัวอย่างเช่นการสร้างบันทึกระบุหนังสือที่เป็นหนังสือขายดีในงานหนังสือ ข้อมูลดิบอาจไม่สามารถจับภาพบันทึกดังกล่าวได้ แต่สำหรับวัตถุประสงค์ในการสร้างแบบจำลองบันทึกที่ได้รับนั้นมีความสำคัญ อัตราส่วนราคาต่อกำไรและค่าเฉลี่ยเคลื่อนที่ 200 วันเป็นสองตัวอย่างของข้อมูลที่ได้รับซึ่งใช้ในแอพพลิเคชั่นทางการเงินอย่างมาก
สามารถหาค่าแอตทริบิวต์ที่ได้จากการคำนวณอย่างง่ายเช่นการอนุมานอายุตั้งแต่วันเกิด แอตทริบิวต์ที่ได้รับสามารถคำนวณโดยการสรุปข้อมูลจากระเบียนหลาย ๆ
ตัวอย่างเช่นการแปลงตารางลูกค้าและหนังสือที่ซื้อลงในตารางจะช่วยให้คุณสามารถติดตามจำนวนหนังสือที่ขายผ่านระบบแนะนำผ่านการตลาดแบบกำหนดเป้าหมายและในงานหนังสือและระบุกลุ่มผู้เข้าชมที่เป็นลูกค้า ซื้อหนังสือเหล่านั้น
การสร้างแอตทริบิวต์เพิ่มเติมดังกล่าวจะทำให้เกิดพลังการคาดการณ์เพิ่มเติมในการวิเคราะห์ ในความเป็นจริงหลายคุณลักษณะดังกล่าวจะถูกสร้างขึ้นเพื่อที่จะสำรวจความสามารถในการทำนายศักยภาพของพวกเขา โมเดลที่คาดการณ์บางอย่างอาจใช้แอตทริบิวต์ที่ได้รับมากกว่าแอตทริบิวต์ในสถานะดิบของพวกเขา หากคุณลักษณะบางอย่างที่ได้รับพิสูจน์โดยเฉพาะอย่างยิ่งการคาดการณ์และอำนาจของพวกเขาได้รับการพิสูจน์ว่ามีความเกี่ยวข้องแล้วมันทำให้รู้สึกโดยอัตโนมัติกระบวนการที่สร้างพวกเขา
การลดมิติข้อมูลของข้อมูลข้อมูลที่ใช้ในโมเดลการคาดการณ์จะรวบรวมจากหลายแหล่ง การวิเคราะห์ของคุณสามารถดึงข้อมูลที่กระจายอยู่ในรูปแบบไฟล์และฐานข้อมูลหลายรูปแบบหรือหลายตารางภายในฐานข้อมูลเดียวกัน การรวมข้อมูลเข้าด้วยกันและรวมไว้ในรูปแบบครบวงจรสำหรับผู้สร้างแบบจำลองข้อมูลจะใช้เป็นสิ่งจำเป็น
หากข้อมูลของคุณมีเนื้อหาตามลำดับชั้นอาจต้อง
ทำให้แบน ข้อมูลบางอย่างมีลักษณะลำดับชั้นบางอย่างเช่นความสัมพันธ์ระหว่างพ่อแม่และเด็กหรือเร็กคอร์ดที่ประกอบด้วยข้อมูลอื่น ๆตัวอย่างเช่นผลิตภัณฑ์เช่นรถอาจมีผู้ผลิตหลายราย ข้อมูลที่ราบเรียบในกรณีนี้หมายถึงการรวมผู้ผลิตแต่ละรายเป็นคุณลักษณะเพิ่มเติมของระเบียนที่คุณกำลังวิเคราะห์ ข้อมูลที่ราบเรียบเป็นสิ่งจำเป็นเมื่อรวมข้อมูลจากระเบียนที่เกี่ยวข้องหลายรูปแบบเพื่อสร้างภาพที่ดีขึ้น
ตัวอย่างเช่นการวิเคราะห์เหตุการณ์ไม่พึงประสงค์สำหรับยาหลายตัวที่ทำโดย บริษัท ต่างๆอาจต้องการให้ข้อมูลถูกทำให้ราบเรียบที่ระดับสาร เมื่อทำเช่นนี้คุณจะต้องลบ
ความสัมพันธ์แบบหนึ่งไปยังหลาย ๆ (ในกรณีนี้ผู้ผลิตจำนวนมากและสารหลายชนิดสำหรับผลิตภัณฑ์หนึ่ง ๆ) ที่อาจทำให้ข้อมูลซ้ำซ้อนมากเกินไปโดยทำซ้ำรายการสารหลายรายการที่ทำซ้ำ ข้อมูลผลิตภัณฑ์และผู้ผลิตที่แต่ละรายการ การทำให้แบนทำให้ข้อมูล
dimensionality ลดลงซึ่งแสดงด้วยจำนวนคุณลักษณะที่มีการบันทึกหรือสังเกตการณ์ ตัวอย่างเช่นลูกค้าสามารถมีคุณสมบัติดังต่อไปนี้: ชื่ออายุที่อยู่สินค้าที่ซื้อ เมื่อคุณเริ่มต้นการวิเคราะห์คุณอาจพบว่าตัวเองกำลังประเมินระเบียนที่มีคุณลักษณะมากมายซึ่งบางส่วนมีความสำคัญต่อการวิเคราะห์เท่านั้น ดังนั้นคุณควรลดคุณสมบัติทั้งหมดที่มีอยู่น้อยมากที่มีอำนาจในการคาดเดามากที่สุดสำหรับโครงการเฉพาะของคุณ
การลดขนาดของข้อมูลทำได้โดยการวางข้อมูลทั้งหมดลงในตารางเดียวที่ใช้คอลัมน์หลายคอลัมน์เพื่อแสดงแอตทริบิวต์ที่น่าสนใจ ในตอนต้นของการวิเคราะห์การวิเคราะห์จะต้องมีการประเมินคอลัมน์จำนวนมาก แต่ตัวเลขนี้สามารถลดลงได้เมื่อการวิเคราะห์ดำเนินไป
สามารถเพิ่มกระบวนการนี้โดยการปรับฟิลด์ใหม่ - ตัวอย่างเช่นโดยการจัดกลุ่มข้อมูลในหมวดหมู่ที่มีลักษณะคล้ายคลึงกัน
ชุดข้อมูลผลลัพธ์ - ชุดข้อมูลที่ทำความสะอาด - โดยปกติจะใส่ในฐานข้อมูลที่แยกต่างหากสำหรับนักวิเคราะห์ที่จะใช้ ในระหว่างขั้นตอนการสร้างแบบจำลองข้อมูลเหล่านี้ควรเข้าถึงได้ง่ายมีการจัดการและปรับปรุงให้ทันสมัยอยู่เสมอ