นักวิทยาศาสตร์เริ่มต่อสู้กับจำนวนข้อมูลที่น่าประทับใจมานานหลายปีก่อนที่ใครจะสร้างคำว่า ข้อมูลใหญ่. ณ จุดนี้ Internet ไม่ได้สร้างผลรวมมหาศาลสำหรับข้อมูลที่ทำในวันนี้
- ดาราศาสตร์: พิจารณาข้อมูลที่ได้รับจากยานอวกาศในภารกิจ (เช่น Voyager หรือ Galileo) และข้อมูลทั้งหมดที่ได้รับจากกล้องโทรทรรศน์วิทยุซึ่งเป็นเสาอากาศเฉพาะที่ใช้ในการรับคลื่นวิทยุจากร่างกายดาราศาสตร์ ตัวอย่างทั่วไปคือโครงการ Search for Extraterrestrial Intelligence (SETI) ซึ่งจะค้นหาสัญญาณจากต่างดาวโดยการสังเกตความถี่วิทยุที่เดินทางมาจากอวกาศ จำนวนข้อมูลที่ได้รับและกำลังของคอมพิวเตอร์ที่ใช้ในการวิเคราะห์ส่วนของท้องฟ้าเป็นเวลาหนึ่งชั่วโมงเป็นที่น่าประทับใจ ถ้ามนุษย์ต่างดาวอยู่ที่นั่นก็ยากที่จะจุดพวกเขา (ภาพยนตร์ ติดต่อ สำรวจสิ่งที่อาจเกิดขึ้นหากมนุษย์ดักจับสัญญาณ)
- อุตุนิยมวิทยา: ลองนึกถึงการคาดการณ์สภาพอากาศในระยะใกล้ ๆ โดยกำหนดมาตรการที่จำเป็นจำนวนมากเช่น อุณหภูมิความดันบรรยากาศความชื้นลมและการเร่งรัดในเวลาสถานที่และระดับความสูงที่แตกต่างกัน การพยากรณ์อากาศเป็นปัญหาแรก ๆ ที่เกิดขึ้นในข้อมูลขนาดใหญ่และค่อนข้างเป็นเรื่องที่เกี่ยวข้อง ตาม Weather Analytics ซึ่งเป็น บริษัท ที่ให้ข้อมูลสภาพภูมิอากาศมากกว่า 33 เปอร์เซ็นต์ของผลิตภัณฑ์มวลรวมภายในประเทศ (GDP) ทั่วโลกพิจารณาจากสภาพอากาศที่ส่งผลกระทบต่อการเกษตรการประมงการท่องเที่ยวและการคมนาคมเพียงไม่กี่ชื่อ ย้อนหลังไปถึงปี 1950 ซูเปอร์คอมพิวเตอร์คนแรกของยุคนั้นถูกใช้เพื่อรวบรวมข้อมูลให้มากที่สุดเท่าที่จะเป็นไปได้เนื่องจากในอุตุนิยมวิทยาข้อมูลจะมากขึ้นการพยากรณ์จะแม่นยำยิ่งขึ้น นั่นคือเหตุผลที่ทุกคนเก็บสะสมและเพิ่มกำลังการผลิตมากขึ้นเนื่องจากคุณสามารถอ่านเรื่องราวเกี่ยวกับสมาคมอุตุนิยมวิทยาเกาหลีเพื่อพยากรณ์อากาศและศึกษาสภาพอากาศที่เปลี่ยนแปลงได้
- ฟิสิกส์: พิจารณาข้อมูลจำนวนมากที่ผลิตโดยการทดลองโดยใช้เครื่องเร่งอนุภาคเพื่อหาโครงสร้างของสสารพื้นที่และเวลา ยกตัวอย่างเช่น Large Hadron Collider ซึ่งเป็นเครื่องเร่งอนุภาคที่ใหญ่ที่สุดที่เคยสร้างขึ้นสร้างข้อมูล 15PB (petabytes) ของข้อมูลทุกๆปีอันเป็นผลมาจากการชนของอนุภาค
- Genomics: การจัดลำดับเส้นใย DNA อันเดียวซึ่งหมายถึงการกำหนดลำดับความถูกต้องของการรวมกันของทั้งสี่ฐาน - อะดีนีน, guanine, cytosine และ thymine - ซึ่งเป็นโครงสร้างของโมเลกุลนั้นต้องใช้ค่อนข้างมาก ของข้อมูลตัวอย่างเช่นโครโมโซมเดี่ยวโครงสร้างที่ประกอบด้วยดีเอ็นเอในเซลล์อาจต้องใช้ตั้งแต่ 50MB ถึง 300MB มนุษย์มีโครโมโซม 46 และข้อมูลดีเอ็นเอสำหรับคนเพียงหนึ่งคนจะกินดีวีดีทั้งหมด ลองจินตนาการถึงพื้นที่เก็บข้อมูลขนาดใหญ่ที่จำเป็นสำหรับการจัดทำเอกสารข้อมูลดีเอ็นเอของคนจำนวนมากหรือเพื่อจัดลำดับรูปแบบชีวิตอื่น ๆ บนโลก
- สมุทรศาสตร์: เนื่องจากเซนเซอร์หลายตัวที่วางอยู่ในมหาสมุทรเพื่อวัดอุณหภูมิกระแสน้ำและใช้ไฮโดรเพรสแม้เสียงเพื่อการตรวจสอบคลื่นเสียงเพื่อการค้นคว้าทางวิทยาศาสตร์ (การค้นพบเกี่ยวกับปลาปลาวาฬและแพลงตอน) และการป้องกันทางทหาร (หาเรือดำน้ำส่อเสียดจากประเทศอื่น ๆ) คุณสามารถแอบมองปัญหาการเฝ้าระวังเก่า ๆ ซึ่งกำลังเปลี่ยนซับซ้อนและดิจิตอลมากขึ้น
- ดาวเทียม: การบันทึกภาพจากทั่วโลกและส่งพวกเขากลับมายังโลกเพื่อตรวจสอบพื้นผิวโลกและบรรยากาศของมันไม่ใช่ธุรกิจใหม่ (TIROS 1 ซึ่งเป็นดาวเทียมดวงแรกที่ส่งภาพและข้อมูลกลับคืนมา) ย้อนหลังไปถึงปีพ. ศ. 2503) อย่างไรก็ตามในช่วงหลายปีที่ผ่านมาโลกได้เปิดตัวดาวเทียมที่ใช้งานมากกว่า 1, 400 ดวงที่ให้การสังเกตการณ์จากแผ่นดินไหว จำนวนข้อมูลที่มายังโลกเป็นสิ่งที่น่าอัศจรรย์และทำหน้าที่ทั้งด้านการทหาร (เฝ้าระวัง) และพลเรือนเช่นการติดตามการพัฒนาทางเศรษฐกิจการติดตามการเกษตรและการติดตามการเปลี่ยนแปลงและความเสี่ยง ดาวเทียม Sentinel 1A ของ European Space Agency หนึ่งหน่วยสร้างข้อมูล 5PB ในช่วงสองปีที่ผ่านมา
ข้อมูลเหล่านี้ทำให้ข้อมูลจำนวนมากเกิดขึ้นหรือดำเนินการโดยอินเทอร์เน็ตสร้างปัญหาใหม่และต้องการโซลูชันทั้งในด้านการจัดเก็บข้อมูลและอัลกอริทึมสำหรับการประมวลผล:
- As รายงานของสำนักงานความมั่นคงแห่งชาติ (NSA) จำนวนข้อมูลที่ไหลผ่านอินเทอร์เน็ตทุกวันจากทั่วโลกมีจำนวน 1, 826PB ของข้อมูลในปี 2556 และ 1 ร้อยละ 6 ของอีเมลประกอบด้วยโทรศัพท์และสายโทรศัพท์. เพื่อให้มั่นใจถึงความมั่นคงของชาติ NSA ต้องตรวจสอบเนื้อหาอย่างน้อย 0.255 เปอร์เซ็นต์ของอีเมลและโทรศัพท์ทั้งหมด (กำลังมองหาคำหลักที่อาจส่งสัญญาณว่ามีจุดประสงค์ของผู้ก่อการร้าย) ที่ยังคงเป็น 25PB ต่อปีซึ่งเท่ากับ 37, 500 CD-ROM ทุกๆปีของข้อมูลที่จัดเก็บและวิเคราะห์ (และกำลังเติบโต) คุณสามารถอ่านเรื่องเต็มได้
- อินเทอร์เน็ตของสิ่งต่างๆ (IoT) กำลังเป็นจริง คุณอาจเคยได้ยินคำหลายครั้งในช่วง 15 ปีที่ผ่านมา แต่ตอนนี้การเติบโตของสิ่งที่เชื่อมต่อกับอินเทอร์เน็ตกำลังจะระเบิดขึ้น ความคิดคือการใส่เซ็นเซอร์และเครื่องส่งสัญญาณในทุกอย่างและใช้ข้อมูลเพื่อควบคุมสิ่งที่เกิดขึ้นในโลกได้ดีขึ้นและเพื่อทำให้วัตถุมีความชาญฉลาด อุปกรณ์ส่งกำลังกำลังได้รับราคาถูกและใช้พลังงานน้อยกว่า บางคนมีขนาดเล็กจนสามารถวางได้ทุกที่ ผู้เชี่ยวชาญคาดการณ์ว่าในปีพ. ศ. 2563 จะมีการเชื่อมต่อกับโลกมากถึงหกเท่าเนื่องจากมีผู้คนจำนวนมาก แต่ บริษัท วิจัยหลายแห่งและทีมวิจัยคิดทบทวนตัวเลขเหล่านี้อยู่แล้ว.