Phân loại nhị phân

Đã hoàn thành

Ghi

Xem tab Văn bản và hình ảnh để biết thêm chi tiết!

Phân loại, giống như hồi quy, là một kỹ thuật máy học được giám sát; và do đó tuân theo cùng một quy trình đào tạo, xác thực và đánh giá các mô hình. Thay vì tính toán các giá trị số như mô hình hồi quy, thuật toán được sử dụng để huấn luyện các mô hình phân loại tính toán giá trị xác suất cho bài tập lớp học và các số liệu đánh giá dùng để đánh giá hiệu suất mô hình so sánh các lớp được dự đoán với các lớp thực tế.

Thuật toán phân loại nhị phân được sử dụng để đào tạo một mô hình dự đoán một trong hai nhãn có thể cho một lớp duy nhất. Về cơ bản, dự đoán đúng hoặc sai. Trong hầu hết các kịch bản thực tế, các quan sát dữ liệu được sử dụng để đào tạo và xác thực mô hình bao gồm nhiều giá trị tính năng (x) và một giá trị y hoặc là 1 hoặc 0.

Ví dụ - phân loại nhị phân

Để hiểu cách phân loại nhị phân hoạt động, hãy xem ví dụ đơn giản hóa sử dụng một tính năng duy nhất (x) để dự đoán xem nhãn y là 1 hay 0. Trong ví dụ này, chúng ta sẽ sử dụng mức đường trong máu của bệnh nhân để dự đoán bệnh nhân có bị bệnh tiểu đường hay không. Dưới đây là dữ liệu mà chúng tôi sẽ đào tạo mô hình:

Sơ đồ ống tiêm. Sơ đồ của một bệnh nhân tiểu đường và người không tiểu đường.
Đường huyết (x) Tiểu đường? (y)
67 0
103 1
114 1
72 0
116 1
65 0

Đào tạo mô hình phân loại nhị phân

Để đào tạo mô hình, chúng ta sẽ sử dụng một thuật toán để phù hợp với dữ liệu đào tạo với một hàm tính toán xác suất của nhãn lớp là đúng (nói cách khác, bệnh nhân bị bệnh tiểu đường). Xác suất được đo là một giá trị từ 0,0 đến 1,0, sao cho tổng xác suất cho tất cả các lớp có thể là 1,0. Vì vậy, ví dụ, nếu xác suất của một bệnh nhân bị bệnh tiểu đường là 0,7, thì có xác suất tương ứng là 0,3 mà bệnh nhân không phải là bệnh tiểu đường.

Có nhiều thuật toán có thể được sử dụng để phân loại nhị phân, chẳng hạn như hồi quy logistic, bắt nguồn một hàm sigmoid (S-shaped) với các giá trị từ 0,0 đến 1,0, như thế này:

Sơ đồ của một hàm logistic.

Ghi

Mặc dù tên gọi của nó, hồi quy logistic máy học được sử dụng để phân loại, không phải hồi quy. Điểm quan trọng là bản chất hậu cần của hàm mà nó tạo ra, trong đó mô tả đường cong hình chữ S giữa giá trị thấp hơn và giá trị trên (0,0 và 1,0 khi được dùng để phân loại nhị phân).

Hàm được tạo ra bởi thuật toán mô tả xác suất của y là đúng (y=1) cho giá trị x đã cho. Về mặt toán học, bạn có thể thể hiện hàm như sau:

f(x) = P(y=1 | x)

Đối với ba trong sáu quan sát trong dữ liệu đào tạo, chúng ta biết rằng y chắc chắn là đúng, vì vậy xác suất cho những quan sát mà y= 1 là 1,0 và đối với ba quan sát khác, chúng ta biết rằng y chắc chắn là sai, vì vậy xác suất y=1 là 0,0. Đường cong hình chữ S mô tả phân bố xác suất để biểu thị giá trị x trên đường xác định xác suất tương ứng là ybằng 1.

Sơ đồ cũng bao gồm một đường ngang để cho biết ngưỡng mà mô hình dựa trên hàm này sẽ dự đoán đúng (1) hoặc sai (0). Ngưỡng nằm ở điểm giữa của y (P(y) = 0,5). Đối với bất kỳ giá trị nào tại thời điểm này trở lên, mô hình sẽ dự đoán đúng (1); trong khi đối với bất kỳ giá trị nào dưới điểm này, nó sẽ dự đoán false (0). Ví dụ, đối với bệnh nhân có nồng độ glucose trong máu là 90, hàm sẽ cho kết quả là giá trị xác suất là 0,9. Vì 0,9 cao hơn ngưỡng 0,5, mô hình sẽ dự đoán đúng (1) - nói cách khác, bệnh nhân được dự đoán bị tiểu đường.

Đánh giá mô hình phân loại nhị phân

Như với hồi quy, khi đào tạo một mô hình phân loại nhị phân bạn giữ lại một tập hợp con ngẫu nhiên của dữ liệu để xác thực các mô hình được đào tạo. Giả sử chúng tôi đã giữ lại dữ liệu sau để xác thực trình phân loại bệnh tiểu đường của chúng tôi:

Đường huyết (x) Tiểu đường? (y)
66 0
107 1
112 1
71 0
87 1
89 1

Áp dụng hàm logistic mà chúng ta đã dẫn xuất trước đó cho các giá trị x sẽ cho kết quả là biểu đồ sau đây.

Sơ đồ các nhãn được dự đoán trên đường cong sigmoid.

Dựa trên xác suất mà hàm tính toán là trên hay dưới ngưỡng, mô hình sẽ tạo nhãn dự đoán là 1 hoặc 0 cho mỗi quan sát. Sau đó chúng ta có thể so sánh các nhãn lớp dự đoán () với các nhãn lớp thực tế (y), như được hiển thị ở đây:

Đường huyết (x) Chẩn đoán bệnh tiểu đường thực tế (y) Chẩn đoán bệnh tiểu đường dự đoán ()
66 0 0
107 1 1
112 1 1
71 0 0
87 1 0
89 1 1

Số liệu đánh giá phân loại nhị phân

Bước đầu tiên trong việc tính toán các chỉ số đánh giá cho mô hình phân loại nhị phân thường là tạo một ma trận số dự đoán chính xác và không chính xác cho mỗi nhãn lớp có thể có:

Sơ đồ của ma trận nhầm lẫn.

Phần trực quan hóa này được gọi là ma trận nhầm lẫn và nó hiển thị tổng dự đoán trong đó:

  • =0 và y=0: Giá trị âm đúng (TN)
  • =1 và y=0: Dương tính giả (FP)
  • =0 và y=1: Âm tính giả (FN)
  • =1 và y=1: Dương đúng (TP)

Sự sắp xếp của ma trận nhầm lẫn là như vậy mà dự đoán chính xác (đúng) được hiển thị trong một đường chéo từ trên cùng bên trái đến dưới cùng bên phải. Thông thường, cường độ màu được dùng để cho biết số lượng dự đoán trong mỗi ô, vì vậy hãy xem nhanh mô hình dự đoán tốt sẽ cho thấy một xu hướng đường chéo được tô bóng sâu.

Chính xác

Số liệu đơn giản nhất bạn có thể tính toán từ ma trận nhầm lẫn là chính xác - tỷ lệ của các dự đoán mà mô hình đã đúng. Độ chính xác được tính toán như:

(TN + TP) ÷ (TN + FN + FP + TP)

Trong trường hợp ví dụ về bệnh tiểu đường của chúng tôi, tính toán là:

(2 + 3) ÷ (2 + 1 + 0 + 3)

= 5 ÷ 6

= 0.83

Vì vậy, đối với dữ liệu xác thực của chúng tôi, mô hình phân loại bệnh tiểu đường đã đưa ra dự đoán chính% 83% vào thời điểm đó.

Độ chính xác ban đầu có vẻ như là một thước đo tốt để đánh giá một mô hình, nhưng hãy cân nhắc điều này. Giả sử 11% dân số mắc bệnh tiểu đường. Bạn có thể tạo ra một mô hình mà luôn luôn dự đoán 0, và nó sẽ đạt được độ chính xác là 89%, mặc dù nó không có nỗ lực thực sự để phân biệt giữa các bệnh nhân bằng cách đánh giá các tính năng của họ. Những gì chúng ta thực sự cần là một sự hiểu biết sâu hơn về cách mô hình thực hiện tại dự đoán 1 cho trường hợp tích cực và 0 cho các trường hợp tiêu cực.

Nhớ

Thu hồi là một thước đo tỷ lệ trường hợp dương tính mà mô hình đã xác định chính xác. Nói cách khác, so với số lượng bệnh nhân mắc bệnh tiểu đường, có bao nhiêu mô hình đã dự đoán bệnh tiểu đường?

Công thức để thu hồi là:

TP ÷ (TP + FN)

Đối với ví dụ về bệnh tiểu đường của chúng tôi:

3 ÷ (3 + 1)

= 3 ÷ 4

= 0.75

Vì vậy, mô hình của chúng tôi đã xác định chính xác 75% bệnh nhân mắc bệnh tiểu đường là mắc bệnh tiểu đường.

Chính xác

Độ chính xác tương tự như số liệu thu hồi, nhưng đo tỷ lệ các trường hợp dương dự đoán trong đó nhãn đúng thực sự dương tính. Nói cách khác, tỷ lệ bệnh nhân được dự đoán bởi mô hình để có bệnh tiểu đường thực sự có bệnh tiểu đường?

Công thức cho độ chính xác là:

Tp ÷ (TP+FP)

Đối với ví dụ về bệnh tiểu đường của chúng tôi:

3 ÷ (3 + 0)

= 3 ÷ 3

= 1.0

Vì vậy, 100% của các bệnh nhân được dự đoán bởi mô hình của chúng tôi để có bệnh tiểu đường làm trong thực tế có bệnh tiểu đường.

Điểm F1

F1-score là một số liệu tổng thể kết hợp thu hồi và độ chính xác. Công thức cho điểm F1 là:

(2 x Chính xác x Thu hồi) ÷ (Chính xác + Thu hồi)

Đối với ví dụ về bệnh tiểu đường của chúng tôi:

(2 x 1,0 x 0,75) ÷ (1,0 + 0,75)

= 1,5 ÷ 1,75

= 0,86

Vùng Dưới Đường cong (AUC)

Một tên gọi khác cho thu hồi là tốc độ dương thực sự ( TPR) và có một số liệu tương đương được gọi là tỷ lệ dương giả ( FPR) được tính toán là FP÷(FP+TN). Chúng tôi đã biết rằng TPR cho mô hình của chúng tôi khi sử dụng ngưỡng 0,5 là 0,75 và chúng ta có thể sử dụng công thức cho FPR để tính toán giá trị 0÷2 = 0.

Tất nhiên, nếu chúng ta thay đổi ngưỡng ở trên mà mô hình dự đoán đúng (1), nó sẽ ảnh hưởng đến số dự đoán dương và âm; và do đó thay đổi chỉ số TPR và FPR. Các chỉ số này thường được sử dụng để đánh giá một mô hình bằng cách vẽ đường cong đặc tính toán tử nhận được ( ROC) so sánh TPR và FPR cho mọi giá trị ngưỡng có thể có từ 0,0 đến 1,0:

Sơ đồ đường cong ROC.

Đường cong ROC cho một mô hình hoàn hảo sẽ đi thẳng lên trục TPR ở bên trái và sau đó ngang qua trục FPR ở phía trên cùng. Vì vùng vẽ cho đường cong đo 1x1, vùng dưới đường cong hoàn hảo này sẽ là 1,0 (có nghĩa là mô hình đúng 100% đúng vào thời điểm đó). Ngược lại, đường chéo từ phía dưới bên trái đến phía trên bên phải đại diện cho kết quả sẽ đạt được bằng cách ngẫu nhiên đoán được nhãn nhị phân; sản xuất một khu vực dưới đường cong của 0,5. Nói cách khác, cho hai nhãn lớp có thể, bạn có thể mong đợi một cách hợp lý để đoán đúng 50% của thời gian.

Trong trường hợp của mô hình bệnh tiểu đường của chúng tôi, đường cong ở trên được tạo ra và vùng dưới số liệu đường cong ( AUC) là 0,875. Vì AUC cao hơn 0,5, chúng ta có thể kết luận mô hình hoạt động tốt hơn tại dự đoán bệnh nhân có bị bệnh tiểu đường hay không so với đoán ngẫu nhiên.