สารบัญ:
วีดีโอ: What REALLY is Data Science? Told by a Data Scientist 2024
คุณต้องโหลดไลบรารีเพื่อดำเนินการงานวิทยาศาสตร์ข้อมูลใน Python นี่คือภาพรวมของห้องสมุดที่คุณสามารถใช้สำหรับวิทยาศาสตร์ข้อมูล ห้องสมุดเหล่านี้สามารถทำหน้าที่หลายอย่างสำหรับนักวิทยาศาสตร์ข้อมูล
การเข้าถึงเครื่องมือทางวิทยาศาสตร์โดยใช้ SciPy
สแต็ค SciPy มีไลบรารีอื่น ๆ ที่คุณสามารถดาวน์โหลดแยกต่างหาก ห้องสมุดเหล่านี้ให้การสนับสนุนด้านคณิตศาสตร์วิทยาศาสตร์และวิศวกรรม เมื่อคุณได้รับ SciPy คุณจะได้รับชุดของห้องสมุดที่ออกแบบมาเพื่อทำงานร่วมกันเพื่อสร้างแอปพลิเคชันต่างๆ ห้องสมุดเหล่านี้
แพนด้า
-
-
การคำนวณทางวิทยาศาสตร์ขั้นพื้นฐานโดยใช้ NumPy
-
ไลบรารี NumPy มีวิธีการในการจัดการอาร์เรย์ n-dimensional ซึ่งเป็นสิ่งสำคัญสำหรับงานวิทยาศาสตร์ข้อมูล คุณไม่สามารถเข้าถึงอาร์เรย์ n ได้อย่างง่ายดายโดยไม่ใช้ฟังก์ชัน NumPy ซึ่งรวมถึงการสนับสนุนพีชคณิตเชิงเส้นการแปลงฟูริเยร์และการสร้างเลขสุ่ม
-
ดำเนินการวิเคราะห์ข้อมูลโดยใช้หมีแพนด้า
-
-
ห้องสมุดหมีแพนด้าให้การสนับสนุนโครงสร้างข้อมูลและเครื่องมือวิเคราะห์ข้อมูล ห้องสมุดได้รับการปรับให้เหมาะกับงานด้านวิทยาศาสตร์ข้อมูลโดยเฉพาะอย่างรวดเร็วและมีประสิทธิภาพ หลักการพื้นฐานเบื้องหลังแพนด้าคือการให้การวิเคราะห์ข้อมูลและการสนับสนุนแบบจำลองสำหรับ Python ที่คล้ายคลึงกับภาษาอื่นเช่น R.
การใช้เครื่องเรียนรู้โดยใช้ Scikit-learn
ห้องสมุด Scikit-learn เป็นหนึ่งในหลาย ๆ ไลบรารี Scikit ที่สร้างขึ้นจากความสามารถที่ NumPy และ SciPy จัดหาให้นักพัฒนาซอฟต์แวร์ Python สามารถทำงานเฉพาะโดเมนได้ ในกรณีนี้ไลบรารีมุ่งเน้นไปที่การทำเหมืองข้อมูลและการวิเคราะห์ข้อมูล มีการเข้าถึงฟังก์ชันการทำงานต่อไปนี้การจำแนกประเภท
การถดถอย
การจัดกลุ่ม
การลดขนาดการเลือกโมเดล
การประมวลผลล่วงหน้า
การวางแผนข้อมูลโดยใช้ matplotlib
-
ไลบรารี matplotlib ให้อินเตอร์เฟสเหมือน MATLAB เพื่อสร้างงานนำเสนอข้อมูลของการวิเคราะห์ที่คุณทำ ขณะนี้ไลบรารีถูก จำกัด ไว้ที่การแสดงผลแบบ 2D แต่ยังคงให้ความหมายในการแสดงรูปแบบข้อมูลที่คุณเห็นในข้อมูลที่คุณวิเคราะห์หากไม่มีห้องสมุดนี้คุณจะไม่สามารถสร้างผลลัพธ์ได้ว่าคนภายนอกชุมชนวิทยาศาสตร์ข้อมูลสามารถเข้าใจได้ง่าย
-
การแยกวิเคราะห์เอกสาร HTML โดยใช้ Beautiful Soup
-
ดาวน์โหลดไลบรารีของ Soup Beautiful ที่เว็บไซต์ Python ไลบรารีนี้มีวิธีการแยกวิเคราะห์ข้อมูล HTML หรือ XML ในลักษณะที่ Python เข้าใจ ช่วยให้คุณสามารถทำงานกับข้อมูลตามต้นไม้ได้
-
นอกเหนือจากการให้ความหมายในการทำงานกับข้อมูลจากต้นไม้แล้ว Beautiful Soup ใช้เวลามากในการทำงานกับเอกสาร HTML ตัวอย่างเช่นโดยอัตโนมัติจะแปลง
-
การเข้ารหัส
-
(ลักษณะที่อักขระจัดเก็บไว้ในเอกสาร) ของเอกสาร HTML จาก UTF-8 ไปเป็น Unicode นักพัฒนา Python จะต้องกังวลกับสิ่งต่างๆเช่นการเข้ารหัส แต่ด้วย Beautiful Soup คุณสามารถมุ่งเน้นที่โค้ดของคุณแทนได้