Khám phá dữ liệu với NumPy và Pandas

Đã hoàn thành

Các nhà khoa học dữ liệu có thể sử dụng nhiều công cụ và kỹ thuật khác nhau để khám phá, trực quan hóa và thao tác với dữ liệu. Một trong những cách phổ biến nhất mà các nhà khoa học dữ liệu làm việc với dữ liệu là sử dụng ngôn ngữ Python và một số gói cụ thể để xử lý dữ liệu.

NumPy là gì?

NumPy là một thư viện Python cung cấp chức năng tương đương với các công cụ toán học như MATLAB và R. Mặc dù NumPy đơn giản hóa đáng kể trải nghiệm người dùng, nó cũng cung cấp các hàm toán học toàn diện.

Gấu trúc là gì?

Gấu trúc là một thư viện Python cực kỳ phổ biến để phân tích dữ liệu và thao tác. Gấu trúc giống như một ứng dụng bảng tính cho Python, cung cấp chức năng dễ sử dụng cho bảng dữ liệu.

Sơ đồ khung dữ liệu Pandas.

Khám phá dữ liệu trong sổ tay

Sổ tay là một cách phổ biến để chạy các tập lệnh cơ bản bằng trình duyệt web của bạn. Thông thường, những sổ ghi chép này là một trang web duy nhất, được chia thành các phần văn bản và phần mã có thể chạy riêng lẻ.

Giả thiết kiểm tra

Thăm dò và phân tích dữ liệu thường là một quá trình lặp, trong đó nhà khoa học dữ liệu lấy mẫu dữ liệu và thực hiện các loại nhiệm vụ sau đây để phân tích và kiểm tra các giả thuyết:

  • dọn dẹp dữ để xử lý lỗi, thiếu giá trị và các sự cố khác.
  • Dụng các kỹ thuật thống kê để hiểu rõ hơn về dữ liệu và cách mẫu có thể được dự kiến đại diện cho tập hợp dữ liệu trong thế giới thực, cho phép biến đổi ngẫu nhiên.
  • Trực quan hóa dữ liệu để xác định mối quan hệ giữa các biến và trong trường hợp dự án máy học, hãy xác định các tính năng của có khả năng dự đoán của nhãn .
  • lại giả thuyết và lặp lại quy trình.