Hồi quy

Đã hoàn thành

Lưu ý

Xem tab Văn bản và hình ảnh để biết thêm chi tiết!

Các mô hình hồi quy được đào tạo để dự đoán các giá trị nhãn số dựa trên dữ liệu đào tạo bao gồm cả tính năng và nhãn đã biết. Quá trình đào tạo mô hình hồi quy (hoặc thực sự, bất kỳ mô hình máy học có giám sát nào) bao gồm nhiều lần lặp lại, trong đó bạn sử dụng một thuật toán thích hợp (thường với một số cài đặt tham số) để đào tạo mô hình, đánh giá hiệu suất dự đoán của mô hình và tinh chỉnh mô hình bằng cách lặp lại quá trình đào tạo với các thuật toán và tham số khác nhau cho đến khi bạn đạt được mức độ chính xác dự đoán có thể chấp nhận được.

Sơ đồ cho thấy quá trình đào tạo đánh giá một mô hình được giám sát.

Sơ đồ cho thấy bốn yếu tố chính của quá trình đào tạo cho các mô hình máy học có giám sát:

  1. Chia dữ liệu đào tạo (ngẫu nhiên) để tạo tập dữ liệu để đào tạo mô hình trong khi giữ lại một tập hợp con dữ liệu mà bạn sẽ sử dụng để xác thực mô hình đã đào tạo.
  2. Sử dụng thuật toán để phù hợp với dữ liệu đào tạo với mô hình. Trong trường hợp mô hình hồi quy, hãy sử dụng thuật toán hồi quy như hồi quy tuyến tính.
  3. Sử dụng dữ liệu xác thực mà bạn đã giữ lại để kiểm tra mô hình bằng cách dự đoán nhãn cho các đối tượng.
  4. So sánh các nhãn thực tế đã biết trong tập dữ liệu xác thực với các nhãn mà mô hình đã dự đoán. Sau đó, tổng hợp sự khác biệt giữa các giá trị nhãn dự đoánthực tế để tính toán một số liệu cho biết mức độ chính xác của mô hình dự đoán cho dữ liệu xác thực.

Sau mỗi lần đào tạo, xác thực và đánh giá lặp, bạn có thể lặp lại quy trình với các thuật toán và tham số khác nhau cho đến khi đạt được chỉ số đánh giá có thể chấp nhận được.

Ví dụ - hồi quy

Hãy khám phá hồi quy với một ví dụ đơn giản trong đó chúng ta sẽ đào tạo một mô hình để dự đoán nhãn số (y) dựa trên một giá trị tính năng duy nhất (x). Hầu hết các kịch bản thực tế liên quan đến nhiều giá trị tính năng, điều này làm tăng thêm một số độ phức tạp; nhưng nguyên tắc là như nhau.

Đối với ví dụ của chúng ta, hãy gắn bó với kịch bản bán kem mà chúng ta đã thảo luận trước đó. Đối với tính năng của chúng ta, chúng ta sẽ xem xét nhiệt độ (giả sử giá trị là nhiệt độ tối đa vào một ngày nhất định) và nhãn mà chúng ta muốn đào tạo một mô hình để dự đoán là số lượng kem được bán trong ngày đó. Chúng ta sẽ bắt đầu với một số dữ liệu lịch sử bao gồm hồ sơ về nhiệt độ hàng ngày (x) và doanh số bán kem (y):

Sơ đồ nhiệt kế. Sơ đồ một loại kem.
Nhiệt độ (x) Doanh số bán kem (y)
51 1
52 0
67 14
65 14
70 23
69 20
72 23
75 26
73 22
81 30
78 26
83 36

Đào tạo mô hình hồi quy

Chúng ta sẽ bắt đầu bằng cách tách dữ liệu và sử dụng một tập hợp con của nó để đào tạo một mô hình. Đây là tập dữ liệu đào tạo:

Nhiệt độ (x) Doanh số bán kem (y)
51 1
65 14
69 20
72 23
75 26
81 30

Để có được cái nhìn sâu sắc về cách các giá trị x vày này có thể liên quan với nhau, chúng ta có thể vẽ chúng dưới dạng tọa độ dọc theo hai trục, như sau:

Sơ đồ biểu đồ phân tán hiển thị x và y.

Bây giờ chúng ta đã sẵn sàng áp dụng một thuật toán cho dữ liệu đào tạo của chúng ta và phù hợp với một hàm áp dụng phép toán cho xđể tính y. Một thuật toán như vậy là hồi quy tuyến tính, hoạt động bằng cách suy ra một hàm tạo ra một đường thẳng qua các giao điểm của các giá trị xy trong khi giảm thiểu khoảng cách trung bình giữa đường thẳng và các điểm được vẽ, như sau:

Sơ đồ biểu đồ phân tán có thêm đường hồi quy.

Đường thẳng là một biểu diễn trực quan của hàm trong đó độ dốc của đường mô tả cách tính giá trị của y cho một giá trị nhất định của x. Đường cắt trục x ở 50, vì vậy khi x là 50, y là 0. Như bạn có thể thấy từ các điểm đánh dấu trục trong biểu đồ, đường dốc sao cho mỗi lần tăng 5 dọc theo trục x dẫn đến sự gia tăng 5 lên trục y ; vì vậy khi x là 55, y là 5; Khi X là 60, Y là 10, v.v. Để tính giá trị y cho một giá trị nhất định của x, hàm chỉ cần trừ đi 50; Nói cách khác, hàm có thể được biểu thị như sau:

f (x) = x-50

Bạn có thể sử dụng hàm này để dự đoán số lượng kem được bán trong một ngày với bất kỳ nhiệt độ nhất định nào. Ví dụ, giả sử dự báo thời tiết cho chúng ta biết rằng ngày mai sẽ là 77 độ. Chúng ta có thể áp dụng mô hình của mình để tính toán 77-50 và dự đoán rằng chúng ta sẽ bán được 27 kem vào ngày mai.

Nhưng mô hình của chúng ta chính xác như thế nào?

Đánh giá mô hình hồi quy

Để xác nhận mô hình và đánh giá mức độ dự đoán của nó, chúng tôi đã giữ lại một số dữ liệu mà chúng tôi biết giá trị nhãn (y). Đây là dữ liệu mà chúng tôi giữ lại:

Nhiệt độ (x) Doanh số bán kem (y)
52 0
67 14
70 23
73 22
78 26
83 36

Chúng ta có thể sử dụng mô hình để dự đoán nhãn cho từng quan sát trong tập dữ liệu này dựa trên giá trị tính năng (x); và sau đó so sánh nhãn dự đoán (ŷ) với giá trị nhãn thực tế đã biết (y).

Sử dụng mô hình mà chúng tôi đã đào tạo trước đó, bao gồm hàm f(x) = x-50, dẫn đến các dự đoán sau:

Nhiệt độ (x) Doanh số thực tế (y) Doanh số dự đoán (ŷ)
52 0 2
67 14 17
70 23 20
73 22 23
78 26 28
83 36 33

Chúng ta có thể vẽ cả nhãn dự đoánthực tế so với các giá trị tính năng như sau:

Sơ đồ biểu đồ phân tán hiển thị các giá trị dự đoán và thực tế.

Các nhãn dự đoán được tính toán bởi mô hình để chúng nằm trên dòng hàm, nhưng có một số phương sai giữa các giá trị ŷ được tính toán bởi hàm và các giá trị y thực tế từ tập dữ liệu xác thực; được chỉ ra trên biểu đồ dưới dạng một đường thẳng giữa các giá trị ŷy cho thấy khoảng cách của dự đoán so với giá trị thực tế.

Chỉ số đánh giá hồi quy

Dựa trên sự khác biệt giữa giá trị dự đoán và giá trị thực tế, bạn có thể tính toán một số chỉ số phổ biến được sử dụng để đánh giá mô hình hồi quy.

Sai số tuyệt đối trung bình (MAE)

Phương sai trong ví dụ này cho biết mỗi dự đoán sai bao nhiêu kem. Không quan trọng nếu dự đoán là trên haydưới giá trị thực tế (ví dụ: -3 và +3 đều cho biết phương sai là 3). Số liệu này được gọi là sai số tuyệt đối cho mỗi dự đoán và có thể được tóm tắt cho toàn bộ bộ xác thực là sai số tuyệt đối trung bình (MAE).

Trong ví dụ về kem, giá trị trung bình (trung bình) của các sai số tuyệt đối (2, 3, 3, 1, 2 và 3) là 2,33.

Lỗi Bình phương Trung bình (MSE)

Chỉ số sai số tuyệt đối trung bình tính đến tất cả sự khác biệt giữa nhãn dự đoán và thực tế như nhau. Tuy nhiên, có thể mong muốn có một mô hình liên tục sai một lượng nhỏ hơn là một mô hình tạo ra ít lỗi hơn nhưng lớn hơn. Một cách để tạo ra một số liệu "khuếch đại" các sai số lớn hơn bằng cách bình phương các sai số riêng lẻ và tính toán giá trị trung bình của các giá trị bình phương. Số liệu này được gọi là sai số bình phương trung bình ( MSE).

Trong ví dụ về kem của chúng tôi, giá trị trung bình của các giá trị tuyệt đối bình phương (là 4, 9, 9, 1, 4 và 9) là 6.

Lỗi bình phương trung bình gốc (RMSE)

Sai số bình phương trung bình giúp tính đến độ lớn của lỗi, nhưng vì nó bình phương các giá trị lỗi, số liệu kết quả không còn đại diện cho số lượng được đo bằng nhãn. Nói cách khác, chúng ta có thể nói rằng MSE của mô hình của chúng ta là 6, nhưng điều đó không đo lường độ chính xác của nó về số lượng kem đã được dự đoán sai; 6 chỉ là một điểm số cho biết mức độ lỗi trong các dự đoán xác thực.

Nếu chúng ta muốn đo sai số về số lượng kem, chúng ta cần tính căn bậc hai của MSE; tạo ra một số liệu được gọi là, không có gì đáng ngạc nhiên, Sai số bình phương trung bình gốc. Trong trường hợp này √6, tức là 2,45 (kem).

Hệ số xác định (R2)

Tất cả các chỉ số cho đến nay đều so sánh sự khác biệt giữa giá trị dự đoán và giá trị thực tế để đánh giá mô hình. Tuy nhiên, trên thực tế, có một số phương sai ngẫu nhiên tự nhiên trong doanh số bán kem hàng ngày mà mô hình tính đến. Trong mô hình hồi quy tuyến tính, thuật toán đào tạo phù hợp với một đường thẳng để giảm thiểu phương sai trung bình giữa hàm và các giá trị nhãn đã biết. Hệ số xác định (thường được gọi là R2 hoặc R-Squared) là một số liệu đo lường tỷ lệ phương sai trong kết quả xác nhận có thể được giải thích bằng mô hình, trái ngược với một số khía cạnh bất thường của dữ liệu xác nhận (ví dụ: một ngày có số lượng bán kem rất bất thường vì một lễ hội địa phương).

Cách tính cho R2 phức tạp hơn so với các chỉ số trước đó. Nó so sánh tổng chênh lệch bình phương giữa nhãn dự đoán và thực tế với tổng chênh lệch bình phương giữa giá trị nhãn thực tế và giá trị trung bình của giá trị nhãn thực tế, như sau:

R2 = 1- ∑(y-ŷ)2 ÷ ∑(y-ȳ)2

Đừng lo lắng quá nhiều nếu điều đó có vẻ phức tạp; Hầu hết các công cụ máy học đều có thể tính toán chỉ số cho bạn. Điểm quan trọng là kết quả là một giá trị từ 0 đến 1 mô tả tỷ lệ phương sai được mô hình giải thích. Nói một cách đơn giản, giá trị này càng gần với 1, mô hình càng phù hợp với dữ liệu xác thực. Trong trường hợp mô hình hồi quy kem, R2 được tính từ dữ liệu xác nhận là 0,95.

Đào tạo lặp đi lặp lại

Các chỉ số được mô tả ở trên thường được sử dụng để đánh giá mô hình hồi quy. Trong hầu hết các tình huống trong thế giới thực, một nhà khoa học dữ liệu sẽ sử dụng một quy trình lặp đi lặp lại để liên tục đào tạo và đánh giá một mô hình, thay đổi:

  • Lựa chọn và chuẩn bị tính năng (chọn tính năng nào để đưa vào mô hình và các tính toán được áp dụng cho chúng để giúp đảm bảo phù hợp hơn).
  • Lựa chọn thuật toán (Chúng tôi đã khám phá hồi quy tuyến tính trong ví dụ trước, nhưng có nhiều thuật toán hồi quy khác)
  • Các tham số thuật toán (cài đặt số để kiểm soát hành vi của thuật toán, chính xác hơn được gọi là siêu tham số để phân biệt chúng với các tham số xy ).

Sau nhiều lần lặp, mô hình dẫn đến số liệu đánh giá tốt nhất có thể chấp nhận được cho kịch bản cụ thể sẽ được chọn.