วีดีโอ: POWER REFORM วิธีการใช้งานเบื้องต้นลู่วิ่งไฟฟ้า รุ่น Apache 2024
เครื่องมือโอเพนซอร์สที่เป็นประโยชน์เฉพาะในการวิเคราะห์เชิงคาดการณ์คือ Apache Mahout ไลบรารีการเรียนรู้ด้วยเครื่องจักรนี้ประกอบด้วยการจัดกลุ่มการจำแนกประเภทการกรองร่วมกันและอัลกอริทึมการทำเหมืองข้อมูลอื่น ๆ ที่สามารถรองรับรูปแบบการวิเคราะห์เชิงพยากรณ์ขนาดใหญ่ได้
วิธีที่แนะนำอย่างยิ่งสำหรับการประมวลผลข้อมูลที่จำเป็นสำหรับโมเดลดังกล่าวคือการเรียกใช้ Mahout ในระบบที่ใช้งาน Hadoop อยู่แล้ว Hadoop กำหนดเครื่องต้นแบบที่ควบคุมเครื่องอื่น ๆ (เช่นเครื่องแผนที่และลดเครื่อง) ที่ใช้ในกระบวนการกระจายข้อมูล Mahout ควรติดตั้งบนเครื่องหลักนั้น
ลองนึกภาพคุณมีข้อมูลที่สตรีมจำนวนมาก - บทความข่าว Google - และคุณต้องการจัดกลุ่มตามหัวข้อโดยใช้หนึ่งในอัลกอริทึมการจัดกลุ่ม หลังจากที่ติดตั้ง Hadoop และ Mahout คุณสามารถใช้อัลกอริทึมหนึ่งตัวเช่น K-means ในข้อมูลของคุณได้
การใช้ K-means ภายใต้ Mahout ใช้เมธอด MapReduce ซึ่งทำให้แตกต่างจากการใช้ K-means ตามปกติ Mahout แบ่งอัลกอริธึม K-means เป็นขั้นตอนย่อยเหล่านี้:
-
KmeansMapper อ่านชุดข้อมูลที่ป้อนเข้าและจะกำหนดจุดอินพุทแต่ละตัวให้ใกล้เคียงกับที่เลือกไว้ในตอนแรก
-
KmeansCombiner ขั้นตอนจะใช้บันทึกทั้งหมด - คู่ - ผลิตโดย KmeansMapper และสร้างผลรวมบางส่วนเพื่อลดการคำนวณของกลุ่มผู้จัดจำหน่ายที่ตามมา
-
KmeansReducer ได้รับค่าที่เกิดจากงานย่อยทั้งหมด (combiners) เพื่อหาค่า centroids จริงของกลุ่มซึ่งเป็นผลลัพธ์สุดท้ายของ K-means
-
KmeansDriver จัดการกับการวนซ้ำของกระบวนการจนกว่ากลุ่มทั้งหมดจะมาบรรจบกัน เอาต์พุตของการทำซ้ำที่ระบุเอาท์พุต์แบบคลัสเตอร์บางส่วนจะใช้เป็นข้อมูลสำหรับการทำซ้ำต่อไป กระบวนการของการทำแผนที่และการลดชุดข้อมูลจนกว่าการกำหนดระเบียนและกลุ่มจะไม่แสดงการเปลี่ยนแปลงเพิ่มเติม
Apache Mahout เป็นโครงการที่พัฒนาขึ้นเมื่อเร็ว ๆ นี้ ความสามารถในการทำงานยังคงมีพื้นที่เพียงพอสำหรับรองรับส่วนขยาย ในขณะเดียวกัน Mahout ใช้ MapReduce เพื่อใช้การจัดหมวดหมู่การจัดกลุ่มและเทคนิคการเรียนรู้เครื่องจักรอื่น ๆ และสามารถทำได้ในแบบที่มีขนาดใหญ่