การวิเคราะห์ข้อมูลขนาดใหญ่ได้รับมาก hype เมื่อเร็ว ๆ นี้และด้วยเหตุผลที่ดี คุณจำเป็นต้องทราบลักษณะของการวิเคราะห์ข้อมูลขนาดใหญ่หากคุณต้องการเป็นส่วนหนึ่งของการเคลื่อนไหวนี้ บริษัท รู้ว่ามีบางอย่างที่นั่น แต่จนกระทั่งเมื่อไม่นานมานี้ยังไม่สามารถทำเหมืองได้ การดำเนินการนี้ทำให้ซองจดหมายในการวิเคราะห์เป็นส่วนที่น่าสนใจสำหรับการวิเคราะห์ข้อมูลขนาดใหญ่
บริษัท รู้สึกตื่นเต้นที่จะสามารถเข้าถึงและวิเคราะห์ข้อมูลที่พวกเขาเก็บรวบรวมหรือต้องการทำความเข้าใจ แต่ยังไม่สามารถจัดการหรือวิเคราะห์ได้อย่างมีประสิทธิภาพ อาจเกี่ยวข้องกับการแสดงข้อมูลที่แตกต่างกันจำนวนมากหรืออาจเกี่ยวข้องกับการวิเคราะห์สตรีมมิ่งขั้นสูงที่คุณในแบบเรียลไทม์ มันเป็นวิวัฒนาการในบางประการและการปฏิวัติในคนอื่น ๆ
ดังนั้นสิ่งที่แตกต่างออกไปเมื่อ บริษัท ของคุณกำลังผลักดันซองจดหมายด้วยการวิเคราะห์ข้อมูลขนาดใหญ่? โครงสร้างพื้นฐานที่สนับสนุนการวิเคราะห์ข้อมูลขนาดใหญ่แตกต่างกันและอัลกอริทึมได้รับการเปลี่ยนแปลงเพื่อให้ทราบถึงโครงสร้างพื้นฐาน
การวิเคราะห์ข้อมูลขนาดใหญ่ควรดูจากสองมุมมอง:
-
การตัดสินใจเชิงตัดสินใจ
-
การดำเนินการเชิงปฏิบัติการ
การวิเคราะห์เชิงตัดสินใจเป็นแบบคล้ายคลึงกับระบบธุรกิจอัจฉริยะแบบดั้งเดิม ดูที่ส่วนย่อยที่เลือกและการเป็นตัวแทนของแหล่งข้อมูลขนาดใหญ่และพยายามนำผลไปใช้ในการตัดสินใจทางธุรกิจ การตัดสินใจเหล่านี้อาจทำให้เกิดการกระทำหรือการเปลี่ยนแปลงบางอย่าง แต่วัตถุประสงค์ของการวิเคราะห์คือการเพิ่มการตัดสินใจ
การวิเคราะห์เชิงปฏิบัติใช้สำหรับการตอบสนองอย่างรวดเร็วเมื่อรูปแบบเกิดขึ้นหรือมีการตรวจพบชนิดของข้อมูลเฉพาะและต้องมีการดำเนินการ การใช้ประโยชน์จากข้อมูลขนาดใหญ่ผ่านการวิเคราะห์และก่อให้เกิดการเปลี่ยนแปลงเชิงรุกหรือพฤติกรรมโต้ตอบทำให้เกิดโอกาสที่ดีสำหรับผู้ใช้งานในช่วงต้น
การค้นหาและใช้ประโยชน์ข้อมูลขนาดใหญ่โดยการสร้างแอพพลิเคชันการวิเคราะห์สามารถถือกุญแจสำคัญในการแยกแยะค่าได้เร็วกว่าในภายหลัง เพื่อให้บรรลุผลงานนี้จะมีประสิทธิภาพมากขึ้นในการสร้างแอ็พพลิเคชันที่กำหนดเองเหล่านี้ตั้งแต่เริ่มต้นหรือใช้แพลตฟอร์มและ / หรือส่วนประกอบ
อาจเป็นได้-
การเขียนโปรแกรม การเปลี่ยนแปลงที่ใหญ่ที่สุดแห่งหนึ่งในการวิเคราะห์คือในอดีตคุณได้รับมือกับชุดข้อมูลที่คุณสามารถโหลดลงในแอปพลิเคชันและสำรวจได้ด้วยตนเอง ด้วยการวิเคราะห์ข้อมูลขนาดใหญ่คุณอาจต้องเผชิญกับสถานการณ์ที่คุณอาจเริ่มต้นด้วยข้อมูลดิบที่มักต้องได้รับการจัดการ โดยทางโปรแกรม เพื่อทำแบบสำรวจใด ๆ เนื่องจากขนาดของข้อมูล สามารถขับเคลื่อนข้อมูลได้ ข้อมูล
-
ในขณะที่นักวิทยาศาสตร์ข้อมูลจำนวนมากใช้วิธีการที่สมมติฐานเกี่ยวกับการวิเคราะห์ข้อมูล (พัฒนาสมมติฐานและรวบรวมข้อมูลเพื่อดูว่าหลักฐานนั้นถูกต้องหรือไม่ก็ตาม) คุณยังสามารถใช้ข้อมูลเพื่อขับเคลื่อนการวิเคราะห์ได้โดยเฉพาะอย่างยิ่งหากคุณรวบรวมข้อมูลมหาศาล ปริมาณของมัน ตัวอย่างเช่นคุณสามารถใช้อัลกอริธึมการเรียนรู้ด้วยเครื่องเพื่อทำแบบจำลองการวิเคราะห์สมมติฐานได้ฟรี สามารถใช้แอ็ตทริบิวต์ ได้มาก
-
ในอดีตคุณอาจได้รับการติดต่อกับคุณลักษณะหรือลักษณะเฉพาะหลายร้อยรายการของแหล่งข้อมูลนั้น ตอนนี้คุณอาจต้องจัดการกับข้อมูลหลายร้อยกิกะไบต์ซึ่งประกอบด้วยหลายพันแอตทริบิวต์และการสังเกตการณ์หลายล้านรายการ ทุกอย่างกำลังเกิดขึ้นในระดับที่ใหญ่ขึ้น สามารถ ซ้ำได้
-
การคำนวณพลังงานมากขึ้นหมายความว่าคุณสามารถย้ำแบบจำลองของคุณได้จนกว่าคุณจะได้รับความต้องการตามที่ต้องการ นี่คือตัวอย่าง สมมติว่าคุณกำลังสร้างโมเดลที่พยายามหาตัวทำนายสำหรับพฤติกรรมของลูกค้าบางกลุ่มที่เกี่ยวข้อง คุณอาจเริ่มต้นดึงข้อมูลตัวอย่างที่เหมาะสมหรือเชื่อมต่อกับข้อมูลที่อยู่ คุณอาจสร้างแบบจำลองเพื่อทดสอบสมมติฐาน ในขณะที่ในอดีตคุณอาจไม่มีหน่วยความจำมากพอที่จะทำให้โมเดลของคุณทำงานได้อย่างมีประสิทธิภาพคุณจะต้องมีหน่วยความจำกายภาพจำนวนมหาศาลเพื่อผ่านขั้นตอนที่จำเป็นในการฝึกอบรมอัลกอริทึม อาจจำเป็นต้องใช้เทคนิคคอมพิวเตอร์ขั้นสูงเช่นการประมวลผลภาษาธรรมชาติหรือเครือข่ายประสาทที่พัฒนารูปแบบขึ้นอยู่กับการเรียนรู้โดยอัตโนมัติเมื่อมีการเพิ่มข้อมูลมากขึ้น สามารถใช้
รวดเร็ว
-
เพื่อคำนวณรอบที่คุณต้องการโดยใช้โครงสร้างพื้นฐานแบบ Cloud เป็น Service ด้วยแพลตฟอร์ม Infrastructure as a Service (IaaS) เช่น Amazon Cloud Services (ACS) คุณสามารถจัดกลุ่มเครื่องให้ใช้ชุดข้อมูลขนาดใหญ่และวิเคราะห์ได้อย่างรวดเร็ว