แชร์ผ่าน


ผลลัพธ์ของแบบจำลองการเรียนรู้ของเครื่อง

บทความนี้จะกล่าวถึงเกี่ยวกับเมทริกซ์ความสับสน ปัญหาการจัดประเภท และความถูกต้องในแบบจำลองการเรียนรู้ของเครื่อง (ML) จุดประสงค์คือเพื่อเพิ่มความเข้าใจของคุณเรื่องความถูกต้องในผลการคาดการณ์ ML ผู้ชมเป้าหมายรวมถึงวิศวกร นักวิเคราะห์ และผู้จัดการที่ต้องการสร้างความรู้และทักษะในด้านวิทยาศาสตร์ข้อมูล

เมทริกซ์ความสับสน

หลังจากที่ได้รับการฝึกอบรมจากปัญหา ML ที่มีการตรวจสอบในชุดของข้อมูลในอดีต จะมีการทดสอบโดยการใช้ข้อมูลที่หักจากกระบวนการฝึกอบรม ด้วยวิธีนี้ คุณสามารถเปรียบเทียบการคาดการณ์จากแบบจำลองที่ได้รับการฝึกอบรมที่มีค่าจริง เมทริกซ์ความสับสนจะช่วยให้คุณสามารถประเมินความสำเร็จในการจัดประเภทได้อย่างไรและทำให้เกิดข้อผิดพลาด (นั่นคือ ซึ่งจะกลายเป็น "สับสน")

ตัวอย่างเช่น วัตถุประสงค์ของคุณคือการคาดการณ์ว่าสัตว์เลี้ยงเป็นสุนัขหรือแมว โดยขึ้นอยู่กับแอททริบิวต์ทางกายภาพและพฤติกรรมบางอย่าง ถ้าคุณมีการทดสอบชุดข้อมูลที่มีสุนัข 30 และแมว 20 ตัว เมทริกซ์ความสับสนอาจคล้ายกับภาพประกอบต่อไปนี้

ตัวอย่างการคาดการณ์สปีชีส์

ตัวเลขในเซลล์สีเขียวแสดงการคาดการณ์ที่ถูกต้อง ดังเช่นที่คุณสามารถเห็นได้ แบบจำลองคาดการณ์เปอร์เซ็นต์ของแมวจริงสูงกว่าได้อย่างถูกต้อง ความถูกต้องโดยรวมของแบบจำลองสามารถคำนวณได้ง่าย ในกรณีนี้ 42 ÷ 50 หรือ 0.84

ตัวจำแนกหลายคลาสในเมทริกซ์ความสับสน

การสนทนาส่วนใหญ่เกี่ยวกับเมทริกซ์ความสับสนจะเน้นบนตัวจำแนกไบนารี เช่นเดียวกับในตัวอย่างก่อนหน้านี้ กรณีนี้เป็นกรณีพิเศษที่จะถือว่าเมตริกอื่น ๆ เช่น ความไวและการเรียกคืน

ถัดไป เราจะพิจารณาปัญหาการจัดประเภทสำหรับสถานการณ์จำลองทางการเงินที่มีสามรัฐ แบบจำลองการคาดการณ์ว่าใบแจ้งหนี้ของลูกค้าจะได้รับการชำระเงินในเวลา ล่าช้า หรือช้ามาก ตัวอย่างเช่น จากใบแจ้งหนี้ 100 ใบหนี้ 50 ชำระเงินตรงเวลา 35 มีการชำระเงินล่าช้า และ 15 จะมีการชำระเงินล่าช้ามาก ในกรณีนี้ แบบจำลองอาจสร้างเมทริกซ์ความสับสนที่คล้ายกับภาพประกอบต่อไปนี้

แบบจำลอง 1.]

เมทริกซ์ความสับสนมีข้อมูลมากเกินกว่าการวัดความแม่นยำอย่างง่าย อย่างไรก็ตาม ยังคงเข้าใจง่าย เมทริกซ์ความสับสนจะบอกให้คุณทราบว่าคุณมีชุดข้อมูลที่มีความสมดุลซึ่งคลาสของผลลัพธ์มีการตรวจนับที่คล้ายกันหรือไม่ สำหรับสถานการณ์จำลองแบบหลายคลาส จะบอกให้คุณทราบว่าการคาดการณ์จะเป็นอย่างไรเมื่อมีการจัดลำดับชั้นของผลผลิต ตามตัวอย่างก่อนหน้านี้เกี่ยวกับการชำระเงินของลูกค้า

ความถูกต้องของแบบจำลอง

เมตริกความถูกต้องแตกต่างกันมีข้อดีของการกำหนดปริมาณคุณภาพของแบบจำลอง

เนื่องจากความถูกต้องเป็นการวัดอย่างง่ายที่จะเข้าใจ ซึ่งเป็นจุดเริ่มต้นที่ดีสำหรับการอธิบายแบบจำลองให้กับผู้อื่น โดยเฉพาะอย่างยิ่งกับผู้ใช้ที่ไม่ใช่นักวิทยาศาสตร์ข้อมูล ไม่จำเป็นต้องทำความเข้าใจเกี่ยวกับสถิติเพื่อให้เข้าใจถึงความถูกต้องของแบบจำลอง เมื่อมีเมทริกซ์ความสับสนที่พร้อมใช้งาน จะให้ข้อมูลเชิงลึกเพิ่มเติมเกี่ยวกับประสิทธิภาพของแบบจำลอง

อย่างไรก็ตาม เพื่อให้เกิดความเข้าใจอย่างชัดแจ้ง ความท้าทายหลายอย่างที่เกี่ยวข้องกับความแม่นยำควรมีการระบุไว้ ประโยชน์ของการวัดจะขึ้นอยู่กับบริบทของปัญหา คําถามที่มักเกิดขึ้นโดยสัมพันธ์กับประสิทธิภาพของแบบโมเดลคือ "ดีต่อแบบจำลองมากแค่ไหน" อย่างไรก็ตาม คําตอบของคําถามนี้ไม่อาจตรงไปตรงไป พิจารณาเมทริกซ์ความสับสนต่อไปนี้ (แบบจำลอง 2)

ตัวอย่างการคาดการณ์การชำระเงินที่มีตัวอย่างที่ใหญ่กว่า

การคำนวณอย่างรวดเร็วแสดงว่าความถูกต้องของแบบจำลองนี้คือ (70 + 10 + 3) ÷ 100 หรือ 0.83 ตามพื้นผิว ผลลัพธ์นี้ดูเหมือนดีกว่าผลลัพธ์สำหรับรุ่นก่อนหน้าแบบหลายคลาส (แบบจำลอง 1) ซึ่งมีความถูกต้องเป็น 0.73 แต่ดีกว่าหรือไม่

ถ้าต้องการเริ่มต้นที่จะแก้ไขคำถามนี้ ให้พิจารณาความถูกต้องของการคาดการณ์แบบไร้กังวล สำหรับปัญหาการจัดประเภท การคาดการณ์แบบง่าย ๆ จะทำนายระดับชั้นทั่วไปเสมอ สำหรับแบบจำลอง 1 ทายว่าจะเป็น "ในเวลา" และจะสร้างความถูกต้องของ 0.50 การทายสำหรับแบบจำลอง 2 จะเป็น "ในเวลา" และจะสร้างความถูกต้องของ 0.80 เนื่องจากแบบจำลอง 1 ช่วยเพิ่มความคาดการณ์โดย 0.73 – 0.50 = 0.23 ในขณะที่แบบจำลอง 2 ปรับปรุงในความคิดแบบไร้กังวลของ 0.83 – 0.80 = 0.03 แบบจำลอง 1 เป็นแบบจำลองที่ดีกว่าแม้ว่าจะมีความถูกต้องต่ำกว่า การคำนวณจะแสดงให้เห็นว่าการประเมินที่มีประสิทธิภาพของคุณภาพของแบบจำลองจำเป็นต้องมีบริบทมากขึ้นกว่าค่าความถูกต้อง

อีกแง่มุมหนึ่งไม่มีประโยชน์ พิจารณาสถานการณ์จำลองที่ใช้ในการตรวจรักษาโรคในผู้ป่วย ปัญหานี้เป็นปัญหาการจัดประเภทแบบไบนารีซึ่งผลบวกบ่งชี้ว่าผู้ป่วยมีโรค ในสถานการณ์จำลองนี้ คุณต้องคำนึงถึงผลกระทบของข้อผิดพลาดต่อไปนี้:

  • ค่าบวกเท็จ ที่ซึ่งการทดสอบกล่าวว่าผู้ป่วยเป็นโรค แต่ผู้ป่วยไม่ได้เป็นจริงๆ
  • ค่าลบเท็จ ที่ซึ่งการทดสอบกล่าวว่าผู้ป่วยไม่เป็นโรค แต่จริงๆ ผู้ป่วยเป็น

เห็นได้ชัด ทั้งสองชนิดของข้อผิดพลาดไม่พึงประสงค์ แต่อันไหนเลวร้ายกว่ากัน อีกครั้ง ก็ขึ้นอยู่กับปัจจัย ในกรณีที่มีโรคที่คุกคามชีวิตซึ่งจำเป็นต้องมีการรักษาอย่างรวดเร็ว การลดลงของผลลบเท็จ (คาดหวังตามการทดสอบเพิ่มเติม) จะให้ความสำคัญสูงกว่า ในกรณีอื่นที่มีสถานการณ์ร้ายแรงน้อยกว่า ผู้สร้างแบบจำลองอาจลดผลบวกเท็จแทน ในอัตราใดก็ตาม ข้อสรุปที่เหมาะสมคือเพื่อให้สามารถกำหนดคุณภาพของแบบจำลองได้อย่างมีประสิทธิภาพ คุณต้องมีข้อมูลเพิ่มเติมที่มากกว่าที่การวัดความถูกต้องให้

คำแนะนำ

ความถูกต้องเป็นเครื่องมือที่สำคัญสำหรับการสื่อสารกับผู้เชี่ยวชาญของโดเมนที่ไม่คุ้นเคยกับสถิติ อย่างไรก็ตาม เพื่อให้ข้อมูลที่เป็นประโยชน์ ถือเป็นเรื่องสำคัญที่จะให้เนื้อหาเพิ่มเติมพร้อมกับค่าความถูกต้อง

สำหรับสถานการณ์การคาดการณ์การชำระเงิน คุณสามารถตั้งค่าเป้าหมายสำหรับรูปแบบ ML ที่มีปัจจัยในลักษณะการทำงานการชำระเงินที่แตกต่างกัน เป้าหมายคือแบบจำลองควรจะปรับปรุงการคาดการณ์ไร้เดียงสาโดยการลดจำนวนของคำตอบที่ไม่ถูกต้องด้วยอย่างน้อย 50 เปอร์เซ็นต์ กล่าวอีกอย่างหนึ่งคือ คุณต้องการความถูกต้องของเป้าหมายซึ่งแยกความแตกต่างระหว่างความถูกต้องของการคาดการณ์ไร้เดียงสาและ 100 เปอร์เซ็นต์

ตารางต่อไปนี้สรุปหลักการนี้สำหรับเมทริกซ์ความสับสนในบทความนี้

แบบจำลอง คาดการณ์ไร้เดียงสา เป้าหมาย ความถูกต้องของแบบจำลอง เป็นไปตามเป้าหมายหรือไม่
แบบจำลอง 1 0.50 0.75 0.73 เกือบ แบบจำลองนี้ช่วยปรับปรุงอย่างมีนัยสำคัญของการคาดการณ์
แบบจำลอง 2 0.80 0.90 0.83 ลำดับที่ จำเป็นต้องมีการปรับปรุง

ความถูกต้องของการจัดประเภท F1

การพิจารณาสุดท้ายของบทความนี้เป็นการวัดขั้นสูงของประสิทธิภาพ ML ของการจัดประเภทซึ่งเรียกว่าความถูกต้องของ F1

ก่อนที่จะสามารถกำหนดความถูกต้องของ F1 ต้องมีการแนะนำการวัดเพิ่มเติมสองอย่างต่อไปนี้: ความแม่นยำและการเรียกคืน ความแม่นยำจะบ่งชี้จำนวนของจำนวนรวมของการคาดการณ์ทั้งหมดที่มีการระบุเป็นค่าบวกถูกกำหนดไว้อย่างถูกต้อง การวัดนี้เรียกอีกอย่างว่าค่าที่คาดคะเนไว้ในเชิงบวก การเรียกคืนเป็นจำนวนรวมของกรณีบวกจริงที่คาดการณ์ไว้อย่างถูกต้อง การวัดนี้เรียกอีกอย่างว่าความไว

ผลลัพธ์จริงเทียบกับผลลัพธ์ที่เป็นเท็จ

ในเมทริกซ์ความสับสนในภาพประกอบก่อนหน้านี้ การวัดเหล่านี้จะมีการคำนวณในลักษณะต่อไปนี้

  • ความแม่นยำ = TP ÷ (TP + FP)
  • การเรียกคืน = TP ÷ (TP + FN)

การวัด F1 จะรวมความแม่นยำและการเรียกคืน ผลที่ได้คือค่าเฉลี่ยฮาร์โมนิกที่เป็นความจริงของสองค่า ซึ่งคำนวณได้ในลักษณะต่อไปนี้:

  • F1 = 2 × (ความแม่นยำ × เรียกคืน) ÷ (ความแม่นยำ + เรียกคืน)

ลองดูที่ตัวอย่างที่เป็นรูปธรรม ก่อนหน้านี้ในบทความนี้ มีตัวอย่างของแบบจำลองที่คาดว่าสัตว์เป็นสุนัขหรือแมว มีการทำซ้ำภาพประกอบที่นี่

ตัวอย่างการคาดการณ์สปีชีส์ (ทำซ้ำ)

ต่อไปนี้เป็นผลลัพธ์ถ้า "สุนัข" ถูกใช้เป็นคำตอบในเชิงบวก

  • ความแม่นยำ = 24 ÷ (24 + 2) = 0.9231
  • เรียกคืน = 24 ÷ (24 + 6) = 0.8
  • F1 = 2 × (0.9231 × 0.8) ÷ (0.9231 + 0.8) = 0.8572

ดังเช่นที่คุณสามารถเห็นได้ ค่า F1 อยู่ระหว่างค่าสำหรับความแม่นยำและการเรียกคืน

ถึงแม้ว่าจะไม่สามารถเข้าใจความถูกต้องของ F1 ได้ง่าย จึงช่วยเพิ่มความแตกต่างให้กับหมายเลขความแม่นยำพื้นฐาน นอกจากนี้ยังสามารถช่วยให้มีชุดที่ไม่สมดุลได้ เนื่องจากการสนทนาดังต่อไปนี้จะแสดงขึ้น

ส่วน ความถูกต้องของแบบจำลอง ของบทความนี้จะเปรียบเทียบเมทริกซ์ความสับสนสองต่อไปนี้ ถึงแม้ว่าแบบจำลองแรกจึงมีความถูกต้องแม่นยำ แต่ก็ถือว่าเป็นแบบจำลองที่มีประโยชน์มากกว่า เนื่องจากแสดงให้เห็นถึงการปรับปรุงเพิ่มเติมที่ไม่ใช่ค่าเริ่มต้นในการชำระเงินในเวลาเดียวกัน

การคาดการณ์การชำระเงินเปรียบเทียบกับตัวอย่างจริง

ตัวอย่างการคาดการณ์การชำระเงินที่มีกลุ่มตัวอย่างที่ใหญ่กว่า (ทำซ้ำ)

ลองดูว่าแบบจำลองสองแบบนี้เปรียบเทียบอย่างไรเมื่อมีการใช้คะแนน F1 ตัวคูณคะแนน F1 ในความแม่นยำและการเรียกคืนสำหรับแต่ละสถานะ และการคำนวณแมโครหาค่าเฉลี่ยคะแนน F1 ทั่วสถานะเพื่อระบุคะแนน F1 โดยรวม มีการกำหนดผลิตภัณฑ์ F1 อื่น ๆ แต่เป็นการให้ดอกเบี้ยมากขึ้นที่จะพิจารณารุ่นแมโคร จากการพิจารณาเท่ากันที่ให้กับทั้งสามสถานะ

เพื่อให้การคำนวณง่ายขึ้น อาร์เรย์ตัวอย่างถูกสร้างขึ้นเพื่อให้ตรงกับค่าที่เกิดขึ้นจริงและค่าที่คาดการณ์ อาร์เรย์เหล่านี้ใช้ในไลบรารีเกณฑ์ชี้วัดของ sklearn ใน Python เพื่อคำนวณค่า นี่คือผลลัพธ์

รุ่น การคาดการณ์ไร้เดียงสา ความถูกต้อง F1 แมโคร
แบบจำลอง 1 0.5 0.73 0.67
แบบจำลอง 2 0.80 0.83 0.66

สำหรับรายละเอียดเพิ่มเติมเกี่ยวกับวิธีการทำงานของการคำนวณนี้ นี่คือรายงานการจัดประเภท sklearn.การวัด สำหรับแบบจำลอง1 สามสถานะ "ในเวลา" "ล่าช้า" และ "ล่าช้ามาก" แสดงโดยแถวที่ติดป้ายชื่อ 1, 2 และ 3 ตามลำดับ ค่าเฉลี่ยของแมโครจะเป็นค่าเฉลี่ยของคอลัมน์ "คะแนน F1" เท่านั้น

  ความแม่นยำ เรียกคืน คะแนน F1
1 0.83 0.80 0.82
2 0.68 0.71 0.69
3 0.50 0.50 0.50

ตามที่ผลลัพธ์เหล่านี้แสดงให้เห็น แบบจำลองสองแบบนี้มีคะแนนความแม่นยำของ F1 แมโครที่เกือบเหมือนกัน ในกรณีนี้และกรณีอื่น ๆ ความถูกต้องของ F1 จะแสดงตัวบ่งชี้ที่ดีของความสามารถของแบบจำลอง ตามความถูกต้อง ผลลัพธ์ของผลการตีความจะกำหนดให้คุณเข้าใจถึงสิ่งที่สำคัญที่สุดที่ควรพิจารณาในแบบจำลอง