วีดีโอ: สอน R: การวิเคราะห์การถดถอยอย่างง่าย (simple linear regression) 2024
การถดถอยเชิงเส้น เป็นวิธีการทางสถิติที่ใช้ในการวิเคราะห์และค้นหาความสัมพันธ์ระหว่างสองตัวแปร ในการวิเคราะห์เชิงคาดการณ์สามารถใช้เพื่อคาดการณ์มูลค่าเชิงตัวเลขในอนาคตของตัวแปร
พิจารณาตัวอย่างข้อมูลที่มีตัวแปรสองตัวแปร: ข้อมูลที่ผ่านมาประกอบด้วยเวลาเดินทางมาถึงของรถไฟและเวลาหน่วงเวลาที่สอดคล้องกัน สมมติว่าคุณต้องการทำนายความล่าช้าสำหรับรถไฟขบวนถัดไป ถ้าคุณใช้การถดถอยเชิงเส้นทั้งสองตัวแปร - เวลาที่มาถึงและล่าช้า - คุณสามารถสร้างสมการเชิงเส้นเช่น
Delay = a + (b * เวลามาถึง) + d
สมการนี้แสดงถึงความสัมพันธ์ระหว่างเวลาหน่วงเวลาและเวลามาถึง ค่าคงที่ และ b เป็นพารามิเตอร์ของโมเดล ตัวแปร d คือ ข้อผิดพลาด (หรือที่เรียกว่า ส่วนที่เหลือ ) - ค่าตัวเลขที่แสดงถึงความไม่ตรงกันระหว่างตัวแปรสองตัวแปร ล่าช้า > และ เวลาที่ถึง หากข้อผิดพลาดไม่เท่ากับศูนย์จากนั้นอาจระบุว่ามีเกณฑ์ที่มีผลต่อความหน่วงเวลา ของตัวแปร a, b,
และ d การถดถอยเชิงเส้นคือ (ตามที่คุณอาจจินตนาการ) เหมาะที่สุดสำหรับข้อมูลเชิงเส้น แต่มันมีความสำคัญมากต่อข้อผิดพลาดในจุดข้อมูล ข้อผิดพลาดในข้อมูลของคุณอาจมีผลกระทบอย่างมากต่อรูปแบบ ขอแนะนำให้คุณนำค่าผิดปกติเหล่านี้ออกจากชุดฝึกอบรมถ้าคุณวางแผนที่จะใช้การถดถอยเชิงเส้นสำหรับรูปแบบการคาดการณ์ของคุณ