ผลลัพธ์ของแบบจำลองการเรียนรู้ของเครื่อง
บทความนี้จะกล่าวถึงเกี่ยวกับเมทริกซ์ความสับสน ปัญหาการจัดประเภท และความถูกต้องในแบบจำลองการเรียนรู้ของเครื่อง (ML) จุดประสงค์คือเพื่อเพิ่มความเข้าใจของคุณเรื่องความถูกต้องในผลการคาดการณ์ ML ผู้ชมเป้าหมายรวมถึงวิศวกร นักวิเคราะห์ และผู้จัดการที่ต้องการสร้างความรู้และทักษะในด้านวิทยาศาสตร์ข้อมูล
เมทริกซ์ความสับสน
หลังจากที่ได้รับการฝึกอบรมจากปัญหา ML ที่มีการตรวจสอบในชุดของข้อมูลในอดีต จะมีการทดสอบโดยการใช้ข้อมูลที่หักจากกระบวนการฝึกอบรม ด้วยวิธีนี้ คุณสามารถเปรียบเทียบการคาดการณ์จากแบบจำลองที่ได้รับการฝึกอบรมที่มีค่าจริง เมทริกซ์ความสับสนจะช่วยให้คุณสามารถประเมินความสำเร็จในการจัดประเภทได้อย่างไรและทำให้เกิดข้อผิดพลาด (นั่นคือ ซึ่งจะกลายเป็น "สับสน")
ตัวอย่างเช่น วัตถุประสงค์ของคุณคือการคาดการณ์ว่าสัตว์เลี้ยงเป็นสุนัขหรือแมว โดยขึ้นอยู่กับแอททริบิวต์ทางกายภาพและพฤติกรรมบางอย่าง ถ้าคุณมีการทดสอบชุดข้อมูลที่มีสุนัข 30 และแมว 20 ตัว เมทริกซ์ความสับสนอาจคล้ายกับภาพประกอบต่อไปนี้
ตัวเลขในเซลล์สีเขียวแสดงการคาดการณ์ที่ถูกต้อง ดังเช่นที่คุณสามารถเห็นได้ แบบจำลองคาดการณ์เปอร์เซ็นต์ของแมวจริงสูงกว่าได้อย่างถูกต้อง ความถูกต้องโดยรวมของแบบจำลองสามารถคำนวณได้ง่าย ในกรณีนี้ 42 ÷ 50 หรือ 0.84
ตัวจำแนกหลายคลาสในเมทริกซ์ความสับสน
การสนทนาส่วนใหญ่เกี่ยวกับเมทริกซ์ความสับสนจะเน้นบนตัวจำแนกไบนารี เช่นเดียวกับในตัวอย่างก่อนหน้านี้ กรณีนี้เป็นกรณีพิเศษที่จะถือว่าเมตริกอื่น ๆ เช่น ความไวและการเรียกคืน
ถัดไป เราจะพิจารณาปัญหาการจัดประเภทสำหรับสถานการณ์จำลองทางการเงินที่มีสามรัฐ แบบจำลองการคาดการณ์ว่าใบแจ้งหนี้ของลูกค้าจะได้รับการชำระเงินในเวลา ล่าช้า หรือช้ามาก ตัวอย่างเช่น จากใบแจ้งหนี้ 100 ใบหนี้ 50 ชำระเงินตรงเวลา 35 มีการชำระเงินล่าช้า และ 15 จะมีการชำระเงินล่าช้ามาก ในกรณีนี้ แบบจำลองอาจสร้างเมทริกซ์ความสับสนที่คล้ายกับภาพประกอบต่อไปนี้
]
เมทริกซ์ความสับสนมีข้อมูลมากเกินกว่าการวัดความแม่นยำอย่างง่าย อย่างไรก็ตาม ยังคงเข้าใจง่าย เมทริกซ์ความสับสนจะบอกให้คุณทราบว่าคุณมีชุดข้อมูลที่มีความสมดุลซึ่งคลาสของผลลัพธ์มีการตรวจนับที่คล้ายกันหรือไม่ สำหรับสถานการณ์จำลองแบบหลายคลาส จะบอกให้คุณทราบว่าการคาดการณ์จะเป็นอย่างไรเมื่อมีการจัดลำดับชั้นของผลผลิต ตามตัวอย่างก่อนหน้านี้เกี่ยวกับการชำระเงินของลูกค้า
ความถูกต้องของแบบจำลอง
เมตริกความถูกต้องแตกต่างกันมีข้อดีของการกำหนดปริมาณคุณภาพของแบบจำลอง
เนื่องจากความถูกต้องเป็นการวัดอย่างง่ายที่จะเข้าใจ ซึ่งเป็นจุดเริ่มต้นที่ดีสำหรับการอธิบายแบบจำลองให้กับผู้อื่น โดยเฉพาะอย่างยิ่งกับผู้ใช้ที่ไม่ใช่นักวิทยาศาสตร์ข้อมูล ไม่จำเป็นต้องทำความเข้าใจเกี่ยวกับสถิติเพื่อให้เข้าใจถึงความถูกต้องของแบบจำลอง เมื่อมีเมทริกซ์ความสับสนที่พร้อมใช้งาน จะให้ข้อมูลเชิงลึกเพิ่มเติมเกี่ยวกับประสิทธิภาพของแบบจำลอง
อย่างไรก็ตาม เพื่อให้เกิดความเข้าใจอย่างชัดแจ้ง ความท้าทายหลายอย่างที่เกี่ยวข้องกับความแม่นยำควรมีการระบุไว้ ประโยชน์ของการวัดจะขึ้นอยู่กับบริบทของปัญหา คําถามที่มักเกิดขึ้นโดยสัมพันธ์กับประสิทธิภาพของแบบโมเดลคือ "ดีต่อแบบจำลองมากแค่ไหน" อย่างไรก็ตาม คําตอบของคําถามนี้ไม่อาจตรงไปตรงไป พิจารณาเมทริกซ์ความสับสนต่อไปนี้ (แบบจำลอง 2)
การคำนวณอย่างรวดเร็วแสดงว่าความถูกต้องของแบบจำลองนี้คือ (70 + 10 + 3) ÷ 100 หรือ 0.83 ตามพื้นผิว ผลลัพธ์นี้ดูเหมือนดีกว่าผลลัพธ์สำหรับรุ่นก่อนหน้าแบบหลายคลาส (แบบจำลอง 1) ซึ่งมีความถูกต้องเป็น 0.73 แต่ดีกว่าหรือไม่
ถ้าต้องการเริ่มต้นที่จะแก้ไขคำถามนี้ ให้พิจารณาความถูกต้องของการคาดการณ์แบบไร้กังวล สำหรับปัญหาการจัดประเภท การคาดการณ์แบบง่าย ๆ จะทำนายระดับชั้นทั่วไปเสมอ สำหรับแบบจำลอง 1 ทายว่าจะเป็น "ในเวลา" และจะสร้างความถูกต้องของ 0.50 การทายสำหรับแบบจำลอง 2 จะเป็น "ในเวลา" และจะสร้างความถูกต้องของ 0.80 เนื่องจากแบบจำลอง 1 ช่วยเพิ่มความคาดการณ์โดย 0.73 – 0.50 = 0.23 ในขณะที่แบบจำลอง 2 ปรับปรุงในความคิดแบบไร้กังวลของ 0.83 – 0.80 = 0.03 แบบจำลอง 1 เป็นแบบจำลองที่ดีกว่าแม้ว่าจะมีความถูกต้องต่ำกว่า การคำนวณจะแสดงให้เห็นว่าการประเมินที่มีประสิทธิภาพของคุณภาพของแบบจำลองจำเป็นต้องมีบริบทมากขึ้นกว่าค่าความถูกต้อง
อีกแง่มุมหนึ่งไม่มีประโยชน์ พิจารณาสถานการณ์จำลองที่ใช้ในการตรวจรักษาโรคในผู้ป่วย ปัญหานี้เป็นปัญหาการจัดประเภทแบบไบนารีซึ่งผลบวกบ่งชี้ว่าผู้ป่วยมีโรค ในสถานการณ์จำลองนี้ คุณต้องคำนึงถึงผลกระทบของข้อผิดพลาดต่อไปนี้:
- ค่าบวกเท็จ ที่ซึ่งการทดสอบกล่าวว่าผู้ป่วยเป็นโรค แต่ผู้ป่วยไม่ได้เป็นจริงๆ
- ค่าลบเท็จ ที่ซึ่งการทดสอบกล่าวว่าผู้ป่วยไม่เป็นโรค แต่จริงๆ ผู้ป่วยเป็น
เห็นได้ชัด ทั้งสองชนิดของข้อผิดพลาดไม่พึงประสงค์ แต่อันไหนเลวร้ายกว่ากัน อีกครั้ง ก็ขึ้นอยู่กับปัจจัย ในกรณีที่มีโรคที่คุกคามชีวิตซึ่งจำเป็นต้องมีการรักษาอย่างรวดเร็ว การลดลงของผลลบเท็จ (คาดหวังตามการทดสอบเพิ่มเติม) จะให้ความสำคัญสูงกว่า ในกรณีอื่นที่มีสถานการณ์ร้ายแรงน้อยกว่า ผู้สร้างแบบจำลองอาจลดผลบวกเท็จแทน ในอัตราใดก็ตาม ข้อสรุปที่เหมาะสมคือเพื่อให้สามารถกำหนดคุณภาพของแบบจำลองได้อย่างมีประสิทธิภาพ คุณต้องมีข้อมูลเพิ่มเติมที่มากกว่าที่การวัดความถูกต้องให้
คำแนะนำ
ความถูกต้องเป็นเครื่องมือที่สำคัญสำหรับการสื่อสารกับผู้เชี่ยวชาญของโดเมนที่ไม่คุ้นเคยกับสถิติ อย่างไรก็ตาม เพื่อให้ข้อมูลที่เป็นประโยชน์ ถือเป็นเรื่องสำคัญที่จะให้เนื้อหาเพิ่มเติมพร้อมกับค่าความถูกต้อง
สำหรับสถานการณ์การคาดการณ์การชำระเงิน คุณสามารถตั้งค่าเป้าหมายสำหรับรูปแบบ ML ที่มีปัจจัยในลักษณะการทำงานการชำระเงินที่แตกต่างกัน เป้าหมายคือแบบจำลองควรจะปรับปรุงการคาดการณ์ไร้เดียงสาโดยการลดจำนวนของคำตอบที่ไม่ถูกต้องด้วยอย่างน้อย 50 เปอร์เซ็นต์ กล่าวอีกอย่างหนึ่งคือ คุณต้องการความถูกต้องของเป้าหมายซึ่งแยกความแตกต่างระหว่างความถูกต้องของการคาดการณ์ไร้เดียงสาและ 100 เปอร์เซ็นต์
ตารางต่อไปนี้สรุปหลักการนี้สำหรับเมทริกซ์ความสับสนในบทความนี้
แบบจำลอง | คาดการณ์ไร้เดียงสา | เป้าหมาย | ความถูกต้องของแบบจำลอง | เป็นไปตามเป้าหมายหรือไม่ |
---|---|---|---|---|
แบบจำลอง 1 | 0.50 | 0.75 | 0.73 | เกือบ แบบจำลองนี้ช่วยปรับปรุงอย่างมีนัยสำคัญของการคาดการณ์ |
แบบจำลอง 2 | 0.80 | 0.90 | 0.83 | ลำดับที่ จำเป็นต้องมีการปรับปรุง |
ความถูกต้องของการจัดประเภท F1
การพิจารณาสุดท้ายของบทความนี้เป็นการวัดขั้นสูงของประสิทธิภาพ ML ของการจัดประเภทซึ่งเรียกว่าความถูกต้องของ F1
ก่อนที่จะสามารถกำหนดความถูกต้องของ F1 ต้องมีการแนะนำการวัดเพิ่มเติมสองอย่างต่อไปนี้: ความแม่นยำและการเรียกคืน ความแม่นยำจะบ่งชี้จำนวนของจำนวนรวมของการคาดการณ์ทั้งหมดที่มีการระบุเป็นค่าบวกถูกกำหนดไว้อย่างถูกต้อง การวัดนี้เรียกอีกอย่างว่าค่าที่คาดคะเนไว้ในเชิงบวก การเรียกคืนเป็นจำนวนรวมของกรณีบวกจริงที่คาดการณ์ไว้อย่างถูกต้อง การวัดนี้เรียกอีกอย่างว่าความไว
ในเมทริกซ์ความสับสนในภาพประกอบก่อนหน้านี้ การวัดเหล่านี้จะมีการคำนวณในลักษณะต่อไปนี้
- ความแม่นยำ = TP ÷ (TP + FP)
- การเรียกคืน = TP ÷ (TP + FN)
การวัด F1 จะรวมความแม่นยำและการเรียกคืน ผลที่ได้คือค่าเฉลี่ยฮาร์โมนิกที่เป็นความจริงของสองค่า ซึ่งคำนวณได้ในลักษณะต่อไปนี้:
- F1 = 2 × (ความแม่นยำ × เรียกคืน) ÷ (ความแม่นยำ + เรียกคืน)
ลองดูที่ตัวอย่างที่เป็นรูปธรรม ก่อนหน้านี้ในบทความนี้ มีตัวอย่างของแบบจำลองที่คาดว่าสัตว์เป็นสุนัขหรือแมว มีการทำซ้ำภาพประกอบที่นี่
ต่อไปนี้เป็นผลลัพธ์ถ้า "สุนัข" ถูกใช้เป็นคำตอบในเชิงบวก
- ความแม่นยำ = 24 ÷ (24 + 2) = 0.9231
- เรียกคืน = 24 ÷ (24 + 6) = 0.8
- F1 = 2 × (0.9231 × 0.8) ÷ (0.9231 + 0.8) = 0.8572
ดังเช่นที่คุณสามารถเห็นได้ ค่า F1 อยู่ระหว่างค่าสำหรับความแม่นยำและการเรียกคืน
ถึงแม้ว่าจะไม่สามารถเข้าใจความถูกต้องของ F1 ได้ง่าย จึงช่วยเพิ่มความแตกต่างให้กับหมายเลขความแม่นยำพื้นฐาน นอกจากนี้ยังสามารถช่วยให้มีชุดที่ไม่สมดุลได้ เนื่องจากการสนทนาดังต่อไปนี้จะแสดงขึ้น
ส่วน ความถูกต้องของแบบจำลอง ของบทความนี้จะเปรียบเทียบเมทริกซ์ความสับสนสองต่อไปนี้ ถึงแม้ว่าแบบจำลองแรกจึงมีความถูกต้องแม่นยำ แต่ก็ถือว่าเป็นแบบจำลองที่มีประโยชน์มากกว่า เนื่องจากแสดงให้เห็นถึงการปรับปรุงเพิ่มเติมที่ไม่ใช่ค่าเริ่มต้นในการชำระเงินในเวลาเดียวกัน
ลองดูว่าแบบจำลองสองแบบนี้เปรียบเทียบอย่างไรเมื่อมีการใช้คะแนน F1 ตัวคูณคะแนน F1 ในความแม่นยำและการเรียกคืนสำหรับแต่ละสถานะ และการคำนวณแมโครหาค่าเฉลี่ยคะแนน F1 ทั่วสถานะเพื่อระบุคะแนน F1 โดยรวม มีการกำหนดผลิตภัณฑ์ F1 อื่น ๆ แต่เป็นการให้ดอกเบี้ยมากขึ้นที่จะพิจารณารุ่นแมโคร จากการพิจารณาเท่ากันที่ให้กับทั้งสามสถานะ
เพื่อให้การคำนวณง่ายขึ้น อาร์เรย์ตัวอย่างถูกสร้างขึ้นเพื่อให้ตรงกับค่าที่เกิดขึ้นจริงและค่าที่คาดการณ์ อาร์เรย์เหล่านี้ใช้ในไลบรารีเกณฑ์ชี้วัดของ sklearn ใน Python เพื่อคำนวณค่า นี่คือผลลัพธ์
รุ่น | การคาดการณ์ไร้เดียงสา | ความถูกต้อง | F1 แมโคร |
---|---|---|---|
แบบจำลอง 1 | 0.5 | 0.73 | 0.67 |
แบบจำลอง 2 | 0.80 | 0.83 | 0.66 |
สำหรับรายละเอียดเพิ่มเติมเกี่ยวกับวิธีการทำงานของการคำนวณนี้ นี่คือรายงานการจัดประเภท sklearn.การวัด สำหรับแบบจำลอง1 สามสถานะ "ในเวลา" "ล่าช้า" และ "ล่าช้ามาก" แสดงโดยแถวที่ติดป้ายชื่อ 1, 2 และ 3 ตามลำดับ ค่าเฉลี่ยของแมโครจะเป็นค่าเฉลี่ยของคอลัมน์ "คะแนน F1" เท่านั้น
ความแม่นยำ | เรียกคืน | คะแนน F1 | |
---|---|---|---|
1 | 0.83 | 0.80 | 0.82 |
2 | 0.68 | 0.71 | 0.69 |
3 | 0.50 | 0.50 | 0.50 |
ตามที่ผลลัพธ์เหล่านี้แสดงให้เห็น แบบจำลองสองแบบนี้มีคะแนนความแม่นยำของ F1 แมโครที่เกือบเหมือนกัน ในกรณีนี้และกรณีอื่น ๆ ความถูกต้องของ F1 จะแสดงตัวบ่งชี้ที่ดีของความสามารถของแบบจำลอง ตามความถูกต้อง ผลลัพธ์ของผลการตีความจะกำหนดให้คุณเข้าใจถึงสิ่งที่สำคัญที่สุดที่ควรพิจารณาในแบบจำลอง