บ้าน การเงินส่วนบุคคล วิธีการแปลงข้อมูลดิบเป็นเมทริกซ์การวิเคราะห์คาดการณ์ - มัมมี่>

วิธีการแปลงข้อมูลดิบเป็นเมทริกซ์การวิเคราะห์คาดการณ์ - มัมมี่>

สารบัญ:

Anonim

ก่อนที่คุณจะสามารถแยกกลุ่มของรายการข้อมูลที่คล้ายคลึงกันออกจากชุดข้อมูลของคุณสำหรับโครงการวิเคราะห์คาดการณ์ของคุณคุณอาจต้องแสดงข้อมูลของคุณในแบบตาราง รูปแบบที่เรียกว่า data matrix นี่คือขั้นตอนการทำ preprocessing ที่มาก่อน data clustering

วิธีการสร้างเมตริกซ์การวิเคราะห์เชิงคาดการณ์ของข้อกำหนดในเอกสาร

สมมติว่าชุดข้อมูลที่คุณกำลังวิเคราะห์อยู่ในชุดเอกสาร Microsoft Word สิ่งแรกที่คุณต้องทำคือการแปลงชุดเอกสารลงในเมตริกซ์ข้อมูล เครื่องมือเชิงพาณิชย์และโอเพนซอร์สจำนวนมากสามารถจัดการงานดังกล่าวได้โดยการผลิตเมทริกซ์ซึ่งในแต่ละแถวจะตรงกับเอกสารในชุดข้อมูล ตัวอย่างเครื่องมือเหล่านี้ ได้แก่ RapidMiner และ R text-mining packages

เอกสาร เป็นสาระสำคัญชุดคำ คำศัพท์ คือชุดคำหนึ่งคำหรือหลายคำ

คำศัพท์ทุกคำที่มีการกล่าวถึงเอกสารจะมีอยู่หนึ่งครั้งหรือหลายครั้งในเอกสารเดียวกัน จำนวนครั้งที่มีการกล่าวถึงในเอกสารสามารถแสดงได้โดย ความถี่คำศัพท์ (TF) ซึ่งเป็นค่าตัวเลข

เราสร้างเมทริกซ์ของข้อกำหนดในเอกสารดังนี้:

  • คำที่ปรากฏในเอกสารทั้งหมดจะแสดงอยู่ในแถวบนสุด

  • ชื่อเอกสารแสดงอยู่ในคอลัมน์ซ้ายสุด

  • ตัวเลขที่ปรากฏภายในเซลล์เมทริกซ์จะสัมพันธ์กับความถี่ของแต่ละเทอม

ตัวอย่างเช่นเอกสาร A จะแสดงเป็นชุดตัวเลข (5, 16, 0, 19, 0, 0) โดยที่ 5 หมายถึงจำนวนครั้งที่มีการทำซ้ำ การวิเคราะห์เชิงคาดการณ์ 16 สอดคล้องกับจำนวนครั้งที่ วิทยาศาสตร์คอมพิวเตอร์ ซ้ำและอื่น ๆ นี่คือวิธีที่ง่ายที่สุดในการแปลงชุดเอกสารลงในเมตริกซ์

การจัดกลุ่ม 2013 มานุษยวิทยา เอกสาร 5 16 0 < 19 0 0 เอกสาร B 8 6 2 3 0 0 เอกสาร C 0 < 5 2 3 3 9 เอกสาร D 1 9 13 4 6 7 เอกสาร E 2 16 16 0 2 13 เอกสาร F 13 0 19 16 > 1 2 พื้นฐานของการเลือกคำที่ใช้ในการวิเคราะห์เชิงพยากรณ์ ความท้าทายหนึ่งข้อในการจัดกลุ่มเอกสารข้อความคือการกำหนดวิธีเลือกเงื่อนไขที่ดีที่สุดเพื่อแสดงเอกสารทั้งหมดในคอลเล็กชัน ความสำคัญของคำในชุดเอกสารสามารถคำนวณได้หลายวิธี ตัวอย่างเช่นหากคุณนับจำนวนครั้งที่มีการทำซ้ำในเอกสารและเปรียบเทียบกับจำนวนครั้งที่มีการเรียกซ้ำในคอลเล็กชันทั้งหมดคุณจะเห็นความสำคัญของคำว่าเมื่อเทียบกับคำอื่น ๆ การพิจารณาความสำคัญของคำที่เกี่ยวกับความถี่ในการเก็บข้อมูลมักจะเรียกว่า น้ำหนัก น้ำหนักที่คุณกำหนดอาจอิงตามหลักการสองข้อ: คำศัพท์ที่ปรากฏขึ้นหลายครั้งในเอกสารเป็นที่ชื่นชอบมากกว่าคำที่ปรากฏเพียงครั้งเดียว

ข้อกำหนดที่ใช้ในเอกสารจำนวนไม่มากนักเป็นที่โปรดปรานมากกว่าข้อกำหนดที่ระบุไว้ในเอกสารทั้งหมด

ถ้าในเอกสารทั้งหมดในชุดข้อมูลของคุณมีการกล่าวถึงคำว่า

ศตวรรษ

คุณอาจไม่พิจารณากำหนดน้ำหนักให้มากพอที่จะมีคอลัมน์ของตัวเองในเมทริกซ์ ในทำนองเดียวกันถ้าคุณกำลังจัดการกับชุดข้อมูลของผู้ใช้เครือข่ายสังคมออนไลน์คุณสามารถแปลงชุดข้อมูลนั้นลงในเมทริกซ์ได้อย่างง่ายดาย ID ผู้ใช้หรือชื่อจะใช้แถว; คอลัมน์จะแสดงรายการคุณลักษณะที่อธิบายผู้ใช้เหล่านั้นได้ดีที่สุด

วิธีการแปลงข้อมูลดิบเป็นเมทริกซ์การวิเคราะห์คาดการณ์ - มัมมี่>

ตัวเลือกของบรรณาธิการ

รูปสัตว์ใกล้เคียงและแมลง - หุ่น

รูปสัตว์ใกล้เคียงและแมลง - หุ่น

การถ่ายภาพสิ่งมีชีวิตขนาดเล็กปิด, คุณสามารถสร้างภาพที่เปิดเผยรายละเอียดที่ละเอียดซึ่งมักมองข้ามหรือมองไม่เห็นด้วยตาเปล่า รายละเอียดประเภทนี้จะช่วยให้ผู้ชมเข้าใจและดึงดูดความสนใจของพวกเขาขณะที่พวกเขาสังเกตเห็นสิ่งที่พวกเขาไม่ได้สังเกตมาก่อน สิ่งมีชีวิตขนาดเล็กและแมลงนอกจากนี้ยังมี ...

Close-up การถ่ายภาพธรรมชาติที่ Dawn - Dummies

Close-up การถ่ายภาพธรรมชาติที่ Dawn - Dummies

องค์ประกอบบางอย่างที่มีอยู่เฉพาะในตอนเช้าช่วยให้ยืมความรู้สึก เล่าเรื่องไปสู่รูปธรรมชาติที่ใกล้ชิดซึ่งทำให้ผู้ดูอ่านได้ หนึ่งในของขวัญหลักที่ถ่ายภาพในตอนเช้าคือแสง แต่องค์ประกอบอื่น ๆ อีกมากมายเพิ่มเรื่องราวของคุณ: Dew เป็นหนึ่งใน ...

เมฆมากความสว่างและสมดุลสีขาว - มัด

เมฆมากความสว่างและสมดุลสีขาว - มัด

แสงที่กระจายผ่านปกคลุมด้วยเมฆปกคลุมการฉายสีฟ้าในรูปถ่ายเช่นเดียวกับที่เปิดกว้าง แสงเงาไม่ อย่างไรก็ตามการเปลี่ยนสีน้ำเงินในแสงที่มีเมฆมากไม่เป็นที่แพร่หลายมากที่สุดเท่าที่อยู่ในที่โล่ง เช่นเดียวกับการเปลี่ยนแปลงคุณภาพและความเข้มเช่นเดียวกับสีของแสงธรรมชาติประเภทนี้ ยิ่งกว่านั้น ...

ตัวเลือกของบรรณาธิการ

การใช้ Dubsmash - Dummies

การใช้ Dubsmash - Dummies

Dubsmash เป็นแอปพลิเคชันมือถือที่ช่วยให้คุณถ่ายคลิปวิดีโอขนาดเล็กที่คุณสามารถแนบไปได้ กัดเสียงตลก แอปพลิเคชันนี้ออกแบบมาเพื่อให้คุณสามารถซิงค์ปากกับกล้องไปยังเสียงที่ให้มาได้ แต่จินตนาการของคุณเป็นขีด จำกัด หลังจากที่คุณสร้างวิดีโอ Dubsmash คุณสามารถบันทึกและแบ่งปัน ...

วิธีการใช้เจลสีและตัวกรองในการสร้างภาพยนตร์ดิจิทัล - มัมมี่

วิธีการใช้เจลสีและตัวกรองในการสร้างภาพยนตร์ดิจิทัล - มัมมี่

คุณสามารถใช้เจลสีและ ตัวกรองเพื่อให้บรรลุผลบางอย่างในภาพยนตร์ดิจิตอลของคุณ มีสีที่แตกต่างกันของแสงซึ่งเป็นวัดในเคลวิน นี่เป็นตัวกำหนดความหนาวเย็นหรือความอบอุ่นของสีของแสง แสงกลางวันอยู่ตรงกลางของเครื่องชั่ง ถ้าภาพของคุณเย็นหรือมีสีน้ำเงินมากเกินไป ...

วิธีการใช้หลอดไส้ในภาพยนตร์ดิจิตอลของคุณ - มัมมี่

วิธีการใช้หลอดไส้ในภาพยนตร์ดิจิตอลของคุณ - มัมมี่

แสงแดดเป็นรูปแบบสุดยอดของแสงสำหรับ การสร้างภาพยนตร์ DSLR นอกจากนี้ยังเป็นแหล่งกำเนิดแสงจากหลอดไส้ที่ดีที่สุดหรือแหล่งกำเนิดแสงที่ให้ความร้อน แม้ว่าอุณหภูมิสีที่แท้จริงจะแตกต่างกันไปขึ้นอยู่กับตำแหน่งและสภาพบรรยากาศ แต่ก็ยังคงมีสีสันอยู่อย่างเต็มรูปแบบ ซึ่งหมายความว่าคุณสามารถปรับความสมดุลของสีได้ที่

ตัวเลือกของบรรณาธิการ

ปรับ Brightness และ Contrast ด้วย Smart Brush Tool ใน Photoshop Elements - Dummies

ปรับ Brightness และ Contrast ด้วย Smart Brush Tool ใน Photoshop Elements - Dummies

Smart เครื่องมือแปรงใน Photoshop Elements ช่วยให้คุณสามารถเลือกใช้การปรับภาพหรือเทคนิคพิเศษที่ปรากฏบนภาพทั้งหมดหรือบางส่วน

ปรับอุณหภูมิสีด้วย Photo Filters ใน Photoshop Elements 10 - Dummies

ปรับอุณหภูมิสีด้วย Photo Filters ใน Photoshop Elements 10 - Dummies

องค์ประกอบจะให้รูปดิจิตอล ของตัวกรองสีสมัยเก่าด้วยคำสั่ง Photo Filter แสงมีอุณหภูมิสีเอง ภาพที่ถ่ายด้วยอุณหภูมิสีสูงกว่าจะทำให้ภาพมีสีฟ้า ตรงกันข้ามภาพที่ถ่ายด้วยอุณหภูมิสีที่ต่ำกว่าจะทำให้ภาพมีสีเหลือง ในสมัยก่อนช่างภาพใช้

ปรับค่า Contrast และ Color ด้วย Photoshop Elements Levels Adjustment - Dummies

ปรับค่า Contrast และ Color ด้วย Photoshop Elements Levels Adjustment - Dummies

การปรับระดับใน Photoshop Elements 11 คือ หนึ่งในคำสั่งที่มีประสิทธิภาพที่สุดในการแก้ไขความคมชัดของภาพ คุณมักใช้ระดับบนเลเยอร์การปรับ การสร้างเลเยอร์การปรับแต่งและการใช้การตั้งค่าจากกล่องโต้ตอบระดับอาจทำให้เกิดความสับสนเล็กน้อย แผงควบคุมแนะนำโชคดีที่แบ่งขั้นตอนที่ซับซ้อนออกเป็น