Kiểm tra dữ liệu thế giới thực

Đã hoàn thành

Dữ liệu được trình bày trong tài liệu giáo dục thường hoàn hảo đáng kể, được thiết kế để cho sinh viên thấy làm thế nào để tìm mối quan hệ rõ ràng giữa các biến. Dữ liệu "Thế giới thực" ít đơn giản hơn một chút.

Do tính phức tạp của dữ liệu "thế giới thực", chúng tôi phải kiểm tra dữ liệu thô đối với các sự cố trước khi sử dụng dữ liệu đó.

Như vậy, biện pháp tốt nhất là kiểm tra dữ liệu thô và xử lý dữ liệu thô trước khi sử dụng, làm giảm lỗi hoặc sự cố thường bằng cách loại bỏ các điểm dữ liệu sai hoặc sửa đổi dữ liệu thành một biểu mẫu hữu ích hơn.

Sự cố dữ liệu trong thế giới thực

Dữ liệu trong thế giới thực có thể chứa nhiều vấn đề khác nhau có thể ảnh hưởng đến tiện ích của dữ liệu và diễn giải kết quả của chúng tôi.

Điều quan trọng là nhận ra rằng hầu hết dữ liệu trong thế giới thực đều bị ảnh hưởng bởi các yếu tố không được ghi lại vào thời điểm đó. Ví dụ: chúng ta có thể có một bảng thời gian theo dõi xe đua cùng với kích thước động cơ; nhưng các yếu tố khác không được ghi lại, chẳng hạn như thời tiết, có thể cũng đóng một vai trò. Nếu có vấn đề, chúng ta thường có thể làm giảm ảnh hưởng của các yếu tố này bằng cách tăng kích thước của tập dữ liệu.

Trong các tình huống khác, các điểm dữ liệu rõ ràng nằm ngoài dự kiến — còn được gọi là "ngoại lệ"—đôi khi có thể được loại bỏ một cách an toàn khỏi phân tích, mặc dù chúng ta phải cẩn thận để không loại bỏ các điểm dữ liệu cung cấp thông tin chi tiết thực tế.

Một vấn đề phổ biến khác trong dữ liệu trong thế giới thực là thành kiến. Thiên vị ám chỉ xu hướng chọn một số loại giá trị nhất định thường xuyên hơn những loại giá trị khác theo cách hiểu sai tổng thể cơ bản hoặc "thế giới thực". Đôi khi, bạn có thể xác định thành kiến bằng cách khám phá dữ liệu trong khi ghi nhớ kiến thức cơ bản về nguồn của dữ liệu.

Dữ liệu thực tế sẽ luôn có vấn đề, nhưng các nhà khoa học dữ liệu thường có thể khắc phục những vấn đề này bằng cách:

  • Đang kiểm tra các giá trị bị thiếu và dữ liệu được ghi kém.
  • Cân nhắc việc loại bỏ ngoại lệ rõ ràng.
  • Kiểm tra những yếu tố thực tế nào có thể ảnh hưởng đến phân tích của họ và xác định xem kích thước tập dữ liệu của chúng có đủ lớn để giảm tác động của các yếu tố này hay không.
  • Kiểm tra dữ liệu thô thiên vị và xem xét các tùy chọn của họ để khắc phục sự thiên vị, nếu tìm thấy.