สำหรับโครงการวิเคราะห์ข้อมูลคาดการณ์ของคุณคุณจะต้องระบุแหล่งที่มาของข้อมูลที่เหมาะสมรวบรวมข้อมูลจากแหล่งข้อมูลเหล่านี้และวางไว้ ในรูปแบบโครงสร้างที่มีการจัดระเบียบอย่างดี งานเหล่านี้อาจเป็นสิ่งที่ท้าทายมากและน่าจะต้องมีการประสานงานอย่างระมัดระวังระหว่างผู้ดูแลข้อมูลที่แตกต่างกันในองค์กรของคุณ
นอกจากนี้คุณยังต้องเลือกตัวแปรที่คุณต้องการวิเคราะห์ ขั้นตอนนี้ต้องใช้ข้อมูลข้อ จำกัด ข้อ จำกัด ของโครงการและวัตถุประสงค์ทางธุรกิจ
ตัวแปรที่คุณเลือกจะต้องมีอำนาจพยากรณ์ นอกจากนี้คุณยังต้องพิจารณาตัวแปรที่มีคุณค่าและเป็นไปได้สำหรับโครงการของคุณภายในงบประมาณและกรอบเวลา ตัวอย่างเช่นหากคุณกำลังวิเคราะห์ธุรกรรมธนาคารในการสืบสวนคดีอาชญากรรมโทรศัพท์จะบันทึกข้อมูลสำหรับทุกฝ่ายที่เกี่ยวข้องอาจเกี่ยวข้องกับการวิเคราะห์ แต่ไม่สามารถเข้าถึงนักวิเคราะห์ได้
คาดว่าจะใช้เวลามากในช่วงของโครงการนี้ การเก็บรวบรวมข้อมูลการวิเคราะห์ข้อมูลและกระบวนการในการจัดการข้อมูลเนื้อหาคุณภาพและโครงสร้างสามารถเพิ่มรายชื่อที่ต้องทำได้
ระหว่างขั้นตอนการระบุข้อมูลจะช่วยให้เข้าใจข้อมูลและคุณสมบัติของข้อมูล ความรู้นี้จะช่วยให้คุณเลือกอัลกอริทึมที่จะใช้เพื่อสร้างโมเดลของคุณ ตัวอย่างเช่นข้อมูลชุดเวลาสามารถวิเคราะห์โดยอัลกอริทึมการถดถอย; อัลกอริธึมการจัดหมวดหมู่สามารถใช้ในการวิเคราะห์ข้อมูลแบบไม่ต่อเนื่อง
การเลือกตัวแปรจะได้รับผลกระทบจากการที่คุณเข้าใจข้อมูลได้ดีเพียงใด อย่าแปลกใจถ้าคุณต้องดูและประเมินตัวแปรต่างๆนับร้อยอย่างน้อยที่สุดในตอนแรก โชคดีที่คุณทำงานกับตัวแปรเหล่านั้นและเริ่มเข้าใจข้อมูลเชิงลึกที่สำคัญคุณจะเริ่มลดขนาดลงเหลือเพียงไม่กี่โหล นอกจากนี้คาดว่าการเลือกตัวแปรจะเปลี่ยนตามความเข้าใจเกี่ยวกับการเปลี่ยนแปลงข้อมูลตลอดโครงการ
คุณอาจพบว่ามีประโยชน์ในการสร้างพื้นที่โฆษณาข้อมูลที่คุณสามารถใช้เพื่อติดตามสิ่งที่คุณรู้สิ่งที่คุณไม่ทราบและสิ่งที่อาจขาดหายไป พื้นที่โฆษณาข้อมูลควรประกอบด้วยรายการองค์ประกอบข้อมูลต่างๆและคุณลักษณะใด ๆ ที่เกี่ยวข้องในขั้นตอนถัดไปของกระบวนการ
ตัวอย่างเช่นคุณอาจต้องการจัดทำเป็นเอกสารว่ากลุ่มใดมีรหัสไปรษณีย์หรือข้อมูลที่ขาดหายไปในช่วงระยะเวลาหนึ่ง
ผู้ที่มีความรู้ทางธุรกิจของคุณ (หรือที่เรียกว่า ผู้เชี่ยวชาญด้านความรู้โดเมน>) จะช่วยคุณเลือกตัวแปรหลักที่สามารถสร้างผลดีกับผลลัพธ์ของโครงการของคุณได้ พวกเขาสามารถช่วยอธิบายให้คุณเห็นถึงความสำคัญของตัวแปรเหล่านี้รวมถึงตำแหน่งและวิธีการรับข้อมูลเหล่านี้ในข้อมูลที่มีค่าอื่น ๆ