ในการรันการวิเคราะห์เชิงคาดการณ์คุณจะต้องได้รับข้อมูลในรูปแบบที่อัลกอริทึมสามารถใช้เพื่อสร้างโมเดลได้ เมื่อต้องการทำเช่นนั้นคุณต้องใช้เวลาในการทำความเข้าใจข้อมูลและรู้โครงสร้างของข้อมูล พิมพ์ฟังก์ชันเพื่อหาโครงสร้างของข้อมูล นี่คือสิ่งที่ดูเหมือนว่า: >> str (seed) 'data กรอบ ': 210 obs. จาก 8 ตัวแปร: $ V1: num 15. 3 14. 9 14. 3 13. 8 16. 1 … $ V2: num 14. 8 14. 6 14. 1 13. 9 15 … $ V3: num 0. 871 0 881 0. 905 0. 895 0. 903 … $ V4: num 5. 76 5. 55 5. 29 5. 32 5. 66 … $ V5: เลขที่ 3. 31 3. 33 3. 34 3. 38 3. 56 … $ V6: num 2. 22 1. 02 2. 7 2. 26 1. 35 … $ V7: num 5. 22 4. 96 4. 83 4. 8 5. 17 … $ V8: int 1 1 1 1 1 1 1 1 1 1 … จากการดูโครงสร้างคุณสามารถบอกได้ว่าข้อมูลต้องการขั้นตอนก่อนการประมวลผลและขั้นตอนสะดวกขั้นที่หนึ่ง:
เปลี่ยนชื่อชื่อคอลัมน์
นี่ไม่ใช่สิ่งจำเป็นอย่างยิ่ง แต่สำหรับวัตถุประสงค์ในการใช้ตัวอย่างนี้การใช้ชื่อคอลัมน์ที่คุณสามารถเข้าใจและจำได้สะดวกกว่า-
เปลี่ยนแอตทริบิวต์ด้วยค่าเด็ดขาดเป็นปัจจัย ฉลากมีสามประเภทที่เป็นไปได้
-
เมื่อต้องการเปลี่ยนชื่อคอลัมน์ให้พิมพ์รหัสต่อไปนี้: >> colnames (seeds) <- c ("พื้นที่", "ปริมณฑล", "compactness", "length", "width", " asymmetry "," length2 "," seedType ")
จากนั้นให้เปลี่ยนแอตทริบิวต์ที่มีค่าที่แบ่งเป็นค่าเป็นปัจจัย รหัสต่อไปนี้จะเปลี่ยนชนิดของข้อมูลเป็นปัจจัย:
>> seed $ seedType <- factor (seed $ seedType) คำสั่งนี้จะเสร็จสิ้นการจัดเตรียมข้อมูลสำหรับกระบวนการสร้างโมเดล ข้อมูลต่อไปนี้เป็นโครงสร้างโครงสร้างหลังกระบวนการเตรียมข้อมูล: ข้อมูล >> str (วัชพืช) ' กรอบ ': 210 obs. จาก 8 ตัวแปร: $ พื้นที่: num 15. 3 14. 9 14. 3 13. 8 16. 1 … $ ปริมณฑล: num 14. 8 14. 6 14. 1 13. 9 15 … $ compactness: num 0. 871 0 881 0. 905 0. 895 0. 903 … $ ความยาว: จำนวน 5. 76 5. 55 5. 29 5. 32 5. 66 … $ ความกว้าง: จำนวน 3. 31 3. 33 3. 34 3. 38 3. 56 … $ asymmetry: num 2. 22 1. 02 2. 7 2. 26 1. 35 … $ length2: num 5. 22 4. 96 4. 83 4. 8 5. 17 … $ seedType: Factor w / 3 levels "1", "2", "3": 1 1 1 1 1 1 1 1 1 1 …