การดูข้อมูลพื้นฐานเกี่ยวกับสถิติการเรียนรู้ด้วยเครื่องและวิธีการทางคณิตศาสตร์ในข้อมูลวิทยาศาสตร์ - Dummies

ส่วนหนึ่งของข้อมูลวิทยาศาสตร์สำหรับ Dummies โกงแผ่น หากสถิติได้รับการอธิบายว่าเป็นวิทยาศาสตร์ของข้อมูลเชิงลึกที่ได้มาจากข้อมูลแล้วความแตกต่างระหว่างนักสถิติกับนักวิทยาศาสตร์ข้อมูลคืออะไร คำถามที่ดี! ในขณะที่งานด้านข้อมูลจำนวนมากต้องการข้อมูลเชิงสถิติที่เป็นประโยชน์ แต่ขอบเขตและความกว้างของความรู้และฐานความรู้ของนักวิทยาศาสตร์ข้อมูลแตกต่างจากข้อมูลสถิติ ความแตกต่างหลัก ๆ ดังที่ได้ระบุไว้ด้านล่างนี้

ความเชี่ยวชาญในเรื่อง:

คุณลักษณะเฉพาะประการหนึ่งของข้อมูลนักวิทยาศาสตร์คือพวกเขามีความเชี่ยวชาญระดับสูงในพื้นที่ที่พวกเขาใช้วิธีการวิเคราะห์ของพวกเขา นักวิทยาศาสตร์ข้อมูลจำเป็นต้องใช้ข้อมูลนี้เพื่อให้เข้าใจความหมายและการประยุกต์ใช้ข้อมูลเชิงลึกที่พวกเขาสร้างได้อย่างแท้จริง นักวิทยาศาสตร์ข้อมูลควรมีความเชี่ยวชาญด้านเนื้อหาเพียงพอเพื่อให้สามารถระบุความสำคัญของการค้นพบของตนและตัดสินใจว่าจะดำเนินการวิเคราะห์อย่างไร
999 วิธีการเรียนรู้คณิตศาสตร์และเครื่อง:
นักสถิติส่วนใหญ่ต้องอาศัยกระบวนการและกระบวนการทางสถิติเมื่อได้ข้อมูลเชิงลึกจากข้อมูล ในทางตรงกันข้ามนักวิทยาศาสตร์ข้อมูลต้องดึงข้อมูลจากหลากหลายเทคนิคเพื่อให้ได้ข้อมูลเชิงลึก ซึ่งรวมถึงวิธีการทางสถิติ แต่รวมถึงวิธีการที่ไม่ได้ใช้ข้อมูลทางสถิติเช่นเดียวกับที่พบในคณิตศาสตร์การจัดกลุ่มการจัดหมวดหมู่และวิธีการเรียนรู้ด้วยเครื่องที่ไม่ใช่สถิติ
การมองเห็นความสำคัญของความรู้ทางสถิติ
คุณไม่จำเป็นต้องออกไปข้างนอกและได้รับปริญญาทางด้านสถิติเพื่อฝึกวิทยาศาสตร์ข้อมูล แต่อย่างน้อยคุณควรทำความคุ้นเคยกับวิธีพื้นฐานที่ใช้กันอยู่บ้าง ในการวิเคราะห์ข้อมูลเชิงสถิติ การถดถอยเชิงเส้น : การถดถอยเชิงเส้นจะเป็นประโยชน์ในการสร้างแบบจำลองความสัมพันธ์ระหว่างตัวแปรตามและตัวแปรอิสระหนึ่งหรือหลายตัวแปร วัตถุประสงค์ของการถดถอยเชิงเส้นคือการค้นพบ (และหาค่าความแข็งแรงของ) ความสัมพันธ์ที่สำคัญระหว่างตัวแปรอิสระและอิสระ

การวิเคราะห์อนุกรมเวลา:

การวิเคราะห์อนุกรมเวลาเป็นการวิเคราะห์ชุดข้อมูลเกี่ยวกับค่าแอตทริบิวต์ในช่วงเวลาเพื่อที่จะคาดการณ์กรณีในอนาคตของการวัดตามข้อมูลการสังเกตการณ์ในอดีต

การจำลอง Monte Carlo: วิธีมอนติคาร์โลเป็นเทคนิคการจำลองที่คุณสามารถใช้ในการทดสอบสมมติฐานเพื่อสร้างการประมาณค่าพารามิเตอร์เพื่อทำนายผลการคาดการณ์และเพื่อตรวจสอบความถูกต้องของโมเดล วิธีนี้มีประสิทธิภาพเนื่องจากสามารถใช้จำลองได้อย่างรวดเร็วตั้งแต่ 1 ถึง 10 000 ตัวอย่างจำลองสำหรับกระบวนการใด ๆ ที่คุณกำลังพยายามประเมิน
สถิติข้อมูลเชิงพื้นที่: ข้อมูลเชิงพื้นที่ที่สำคัญอย่างหนึ่งของข้อมูลเชิงพื้นที่คือไม่ได้เป็นแบบสุ่ม ขึ้นอยู่กับพื้นที่และสัมพันธ์กับผู้อื่น เมื่อสร้างแบบจำลองข้อมูลเชิงพื้นที่ให้หลีกเลี่ยงวิธีการทางสถิติที่ถือว่าข้อมูลของคุณเป็นแบบสุ่ม Kriging และ krige เป็นวิธีทางสถิติสองวิธีที่คุณสามารถใช้เพื่อสร้างแบบจำลองข้อมูลเชิงพื้นที่ วิธีการเหล่านี้ช่วยให้คุณสามารถผลิตพื้นผิวที่คาดการณ์ได้สำหรับพื้นที่การศึกษาทั้งหมดตามชุดของจุดที่รู้จักในพื้นที่ทางภูมิศาสตร์
การทำงานกับการจัดกลุ่มการจัดหมวดหมู่และวิธีการเรียนรู้เครื่องจักร การเรียนรู้ด้วยเครื่องคือการใช้อัลกอริธึมการคำนวณเพื่อเรียนรู้จากชุดข้อมูลดิบ (หรืออนุมานรูปแบบ)
Clustering การจัดกลุ่ม

คือการเรียนรู้ด้วยเครื่องโดยเฉพาะ -

การเรียนรู้ด้วยเครื่องโดยไม่ได้ตั้งใจ ให้แม่นยำซึ่งหมายความว่าอัลกอริทึมต้องเรียนรู้จากข้อมูลที่ไม่ติดป้ายกำกับและเป็นเช่นนั้นพวกเขาต้องใช้วิธีการอนุมานเพื่อค้นพบ ความสัมพันธ์ การจำแนกประเภท ในทางกลับกันเรียกว่าการเรียนรู้ด้วยเครื่องที่ได้รับการดูแลซึ่งหมายความว่าอัลกอริทึมจะเรียนรู้จากข้อมูลที่ติดฉลาก การจัดกลุ่มแบบ k หมายถึง:

โดยทั่วไปคุณใช้อัลกอริทึม k-means เพื่อแบ่งย่อยจุดข้อมูลของชุดข้อมูลให้เป็นกลุ่มตามค่าเฉลี่ยที่ใกล้เคียงที่สุด เพื่อกำหนดส่วนที่ดีที่สุดของจุดข้อมูลของคุณให้อยู่ในกลุ่มเช่นทำให้ระยะห่างระหว่างจุดในแต่ละคลัสเตอร์ลดลงคุณสามารถใช้การจัดกลุ่มแบบ k หมายถึง ขั้นตอนวิธีเพื่อนบ้านที่ใกล้ที่สุด:

วัตถุประสงค์ของการวิเคราะห์เพื่อนบ้านที่ใกล้ที่สุดคือการค้นหาและค้นหาจุดที่ใกล้ที่สุดในอวกาศหรือใกล้เคียงกับค่าตัวเลขขึ้นอยู่กับแอตทริบิวต์ที่คุณใช้เพื่อเปรียบเทียบ การประเมินความหนาแน่นของเคอร์เนล:
วิธีอื่นในการระบุกลุ่มข้อมูลของคุณคือการใช้ฟังก์ชันการปรับความหนาแน่นของความหนาแน่น การประมาณความหนาแน่นของเคอร์เนล (KDE) ทำงานโดยการวาง เคอร์เนล
ฟังก์ชันการถ่วงน้ำหนักที่เป็นประโยชน์สำหรับการหาปริมาณความหนาแน่น - ในแต่ละจุดข้อมูลในชุดข้อมูลและจากนั้นให้ข้อสรุปเกี่ยวกับเมล็ดเพื่อสร้างความหนาแน่นของเมล็ดโดยประมาณ ภูมิภาค. การรักษาวิธีการทางคณิตศาสตร์ในการผสม จำนวนมากได้รับการกล่าวเกี่ยวกับค่าของสถิติในการปฏิบัติของข้อมูลวิทยาศาสตร์ แต่ใช้วิธีการทางคณิตศาสตร์ไม่ค่อยได้กล่าวถึง คณิตศาสตร์เป็นพื้นฐานของการวิเคราะห์เชิงปริมาณทั้งหมด ความสำคัญของมันไม่ควร understated สองวิธีทางคณิตศาสตร์ต่อไปนี้เป็นประโยชน์อย่างยิ่งในด้านวิทยาศาสตร์ข้อมูล การตัดสินใจหลายรูปแบบ (MCDM):

MCDM เป็นรูปแบบการตัดสินใจทางคณิตศาสตร์ที่คุณสามารถใช้เมื่อคุณมีเกณฑ์หรือทางเลือกหลายอย่างที่คุณต้องประเมินพร้อม ๆ กันเมื่อมีการตัดสินใจ

ห่วงโซ่ Markov

: โซ่ Markov เป็นวิธีการทางคณิตศาสตร์ที่รวบรวมชุดของตัวแปรที่สร้างขึ้นแบบสุ่มซึ่งเป็นตัวแทนของรัฐในปัจจุบันเพื่อจำลองว่าการเปลี่ยนแปลงของตัวแปรในปัจจุบันส่งผลต่อรัฐในอนาคตอย่างไร