สารบัญ:
ส่วนของข้อมูลวิทยาศาสตร์สำหรับ Dummies Cheat Sheet
ข้อมูลขนาดใหญ่ เป็นข้อมูลสำหรับปริมาณข้อมูลความเร็วและความหลากหลาย เทคโนโลยีฐานข้อมูลแบบเดิมไม่สามารถจัดการกับข้อมูลขนาดใหญ่ได้จำเป็นต้องใช้โซลูชั่นด้านข้อมูลที่เป็นนวัตกรรมใหม่กว่า เมื่อต้องการประเมินโครงการของคุณว่ามีคุณสมบัติเป็นโครงการข้อมูลขนาดใหญ่หรือไม่โปรดพิจารณาเกณฑ์ต่อไปนี้ ปริมาณ:
-
ระหว่าง 1 เทราไบต์ต่อปีและ 10 petabytes / year ความเร็ว:
ระหว่าง 30 กิโลไบต์ / วินาทีและ 30 กิกะไบต์ / วินาที -
ความหลากหลาย: ข้อมูลรวมของข้อมูลที่ไม่มีโครงสร้าง, ข้อมูลกึ่งโครงสร้างและโครงสร้าง
-
ข้อมูลวิทยาศาสตร์และ วิศวกรรมข้อมูลไม่เหมือนกัน ผู้จัดการผู้ว่าจ้างมักจะสับสนกับบทบาทของนักวิทยาศาสตร์ข้อมูลและวิศวกรข้อมูล แม้ว่าจะเป็นไปได้ที่จะหาคนที่ไม่ค่อยสนใจในแต่ละสาขา แต่ก็มีความซับซ้อนไม่มากนัก ไม่น่าที่คุณจะได้พบกับคนที่มีทักษะและประสบการณ์ที่แข็งแกร่งในทั้งสองด้าน ด้วยเหตุนี้คุณจึงจำเป็นต้องระบุประเภทของผู้เชี่ยวชาญที่เหมาะสมที่สุดเพื่อช่วยให้คุณบรรลุเป้าหมายที่เฉพาะเจาะจง คำอธิบายด้านล่างจะช่วยให้คุณทำเช่นนั้นได้
นักวิทยาศาสตร์ข้อมูลใช้การเข้ารหัส, วิธีการเชิงปริมาณ (การคำนวณทางสถิติและการเรียนรู้ด้วยเครื่องจักร) และความเชี่ยวชาญเฉพาะด้านในพื้นที่การศึกษาของตนเพื่อหาทางแก้ปัญหาทางธุรกิจที่ซับซ้อนและปัญหาทางวิทยาศาสตร์
วิศวกรข้อมูล:-
วิศวกรข้อมูลใช้ทักษะทางด้านวิทยาการคอมพิวเตอร์และวิศวกรรมซอฟต์แวร์ในการออกแบบระบบและแก้ไขปัญหาเกี่ยวกับการจัดการและจัดการกับชุดข้อมูลขนาดใหญ่
-
นักวิทยาศาสตร์ข้อมูลและนักวิเคราะห์ธุรกิจที่ทำธุรกิจเป็นหลักจะเป็นเหมือนญาติพี่น้อง ทั้งสองประเภทของข้อมูลการใช้ผู้เชี่ยวชาญเพื่อให้บรรลุเป้าหมายทางธุรกิจเดียวกัน แต่วิธีการของเทคโนโลยีและหน้าที่แตกต่างกัน คำอธิบายด้านล่างสะกดความแตกต่างระหว่างสองบทบาท Business Intelligence (BI):
โซลูชัน BI มักสร้างขึ้นโดยใช้ชุดข้อมูลที่สร้างขึ้นภายใน - จากภายในองค์กรมากกว่าจากอีกนัยหนึ่ง เครื่องมือและเทคโนโลยีทั่วไป ได้แก่ การวิเคราะห์ทางออนไลน์การแยกการแปลงและการโหลดและการเก็บข้อมูลข้อมูล แม้ว่า BI บางครั้งอาจเกี่ยวข้องกับวิธีการคาดการณ์ล่วงหน้าเช่นการคาดการณ์วิธีการเหล่านี้ใช้ข้อมูลทางคณิตศาสตร์ที่เรียบง่ายจากข้อมูลทางประวัติศาสตร์หรือข้อมูลปัจจุบัน
วิทยาศาสตร์ข้อมูลที่มุ่งเน้นธุรกิจ:
โซลูชันข้อมูลทางธุรกิจที่มุ่งเน้นธุรกิจเป็นฐานข้อมูลที่สร้างขึ้นโดยใช้ชุดข้อมูลที่มีทั้งภายในและภายนอกองค์กร เครื่องมือเทคโนโลยีและ skillsets ทั่วไป ได้แก่ แพลตฟอร์มการวิเคราะห์แบบ Cloud-based การเขียนโปรแกรมทางสถิติและคณิตศาสตร์การเรียนรู้ด้วยเครื่องการวิเคราะห์ข้อมูลโดยใช้ Python และ R และการแสดงข้อมูลขั้นสูง นักวิทยาศาสตร์ข้อมูลเชิงธุรกิจเป็นผู้ใช้วิธีทางคณิตศาสตร์หรือสถิติขั้นสูงเพื่อวิเคราะห์และคาดการณ์ข้อมูลจากข้อมูลทางธุรกิจจำนวนมหาศาล