สารบัญ:
- การเรียนรู้ภายใต้การดูแล
- ข้อผิดพลาดช่วยให้คุณได้เรียนรู้เพราะพวกเขาได้รับโทษเพิ่ม (เสียค่าใช้จ่ายเสียเวลาเสียใจความเจ็บปวดและอื่น ๆ ) สอนคุณว่าการกระทำบางอย่างมีโอกาสน้อยที่จะประสบความสำเร็จมากกว่าคนอื่น ๆ ตัวอย่างที่น่าสนใจของการเรียนรู้การเสริมแรงเกิดขึ้นเมื่อคอมพิวเตอร์เรียนรู้ที่จะเล่นวิดีโอเกมด้วยตัวเอง
การเรียนรู้ภายใต้การดูแล
- การศึกษาที่ไม่ได้รับการยกเว้น
- การเรียนรู้เสริมสมรรถนะ
- การศึกษาที่มีการกำกับดูแล
การเรียนรู้ภายใต้การดูแล
เกิดขึ้นเมื่ออัลกอริธึมเรียนรู้จากตัวอย่าง ข้อมูลและการตอบสนองเป้าหมายที่เกี่ยวข้องซึ่งอาจประกอบด้วยค่าตัวเลขหรือป้ายข้อความสตริงเช่นชั้นเรียนหรือแท็กเพื่อคาดการณ์การตอบสนองที่ถูกต้องในภายหลังเมื่อสร้างตัวอย่างใหม่ แนวทางที่ได้รับการดูแลจะคล้ายกับการเรียนรู้ของมนุษย์ภายใต้การดูแลของครู ครูเป็นตัวอย่างที่ดีสำหรับนักเรียนในการจดจำและนักเรียนจะได้รับกฎทั่วไปจากตัวอย่างเฉพาะเหล่านี้
คุณต้องแยกแยะระหว่างปัญหาการถดถอยซึ่งเป้าหมายเป็นค่าตัวเลขและปัญหาการจัดหมวดหมู่ซึ่งเป้าหมายเป็นตัวแปรคุณภาพเช่นคลาสหรือแท็ก งานถดถอยกำหนดราคาเฉลี่ยของบ้านในพื้นที่บอสตันและงานจำแนกประเภทระหว่างดอกไอริสจะขึ้นอยู่กับมาตรการกักขังและกลีบดอกไม้การศึกษาที่ไม่ได้รับการยกเว้น
เกิดขึ้นเมื่ออัลกอริธึมเรียนรู้จากตัวอย่างธรรมดาโดยไม่มีการตอบสนองใด ๆ ที่เกี่ยวข้องออกไปให้กับอัลกอริทึมเพื่อกำหนดรูปแบบข้อมูลด้วยตัวเอง อัลกอริทึมประเภทนี้มีแนวโน้มที่จะปรับโครงสร้างข้อมูลให้เป็นอย่างอื่นเช่นคุณลักษณะใหม่ ๆ ที่อาจแสดงถึงชั้นเรียนหรือชุดค่าใหม่ที่ไม่สัมพันธ์กัน พวกเขามีประโยชน์มากในการให้มนุษย์มีข้อมูลเชิงลึกเกี่ยวกับความหมายของข้อมูลและข้อมูลที่เป็นประโยชน์ใหม่ ๆ ในขั้นตอนวิธีการเรียนรู้ด้วยเครื่องจักรที่ได้รับการดูแล
การเรียนรู้การเสริมกำลัง
การเรียนรู้การเสริมกำลัง
เกิดขึ้นเมื่อคุณนำเสนออัลกอริทึมด้วยตัวอย่างที่ไม่มีป้ายกำกับเช่นเดียวกับการเรียนรู้ที่ไม่ได้รับการยกเว้น อย่างไรก็ตามคุณสามารถมาพร้อมกับตัวอย่างที่มีข้อเสนอแนะเชิงบวกหรือเชิงลบตามแนวทางที่อัลกอริทึมนำเสนอการเรียนรู้การเสริมแรงมีการเชื่อมต่อกับแอพพลิเคชันที่อัลกอริทึมต้องตัดสินใจ (เพื่อให้ผลิตภัณฑ์เป็นแบบอย่างไม่ใช่คำอธิบายเช่นเดียวกับการเรียนรู้ที่ไม่ได้รับการยกเว้น) และการตัดสินใจจะเกิดขึ้น ในโลกมนุษย์มันเหมือนกับการเรียนรู้ด้วยการทดลองและข้อผิดพลาด
ข้อผิดพลาดช่วยให้คุณได้เรียนรู้เพราะพวกเขาได้รับโทษเพิ่ม (เสียค่าใช้จ่ายเสียเวลาเสียใจความเจ็บปวดและอื่น ๆ) สอนคุณว่าการกระทำบางอย่างมีโอกาสน้อยที่จะประสบความสำเร็จมากกว่าคนอื่น ๆ ตัวอย่างที่น่าสนใจของการเรียนรู้การเสริมแรงเกิดขึ้นเมื่อคอมพิวเตอร์เรียนรู้ที่จะเล่นวิดีโอเกมด้วยตัวเอง
ในกรณีนี้แอปพลิเคชันจะแสดงอัลกอริทึมด้วยตัวอย่างของสถานการณ์เฉพาะเช่นมีนักเล่นเกมติดอยู่ในเขาวงกตขณะที่หลีกเลี่ยงศัตรู แอ็พพลิเคชันช่วยให้อัลกอริทึมรู้ถึงผลของการกระทำที่เกิดขึ้นและการเรียนรู้เกิดขึ้นในขณะที่พยายามหลีกเลี่ยงสิ่งที่ค้นพบว่าเป็นอันตรายและติดตามความอยู่รอด คุณสามารถดูได้ว่า บริษัท Google DeepMind ได้สร้างโปรแกรมการเสริมสร้างการเรียนรู้ที่เล่นวิดีโอเกมของอาตาริอย่างไร เมื่อดูวิดีโอให้สังเกตว่าโปรแกรมนี้มีลักษณะซุ่มซ่ามและไร้ฝีมือ แต่จะดีขึ้นเรื่อย ๆ พร้อมกับการฝึกอบรมจนกว่าจะกลายเป็นแชมป์