Giới thiệu

Đã hoàn thành

Không ngạc nhiên, vai trò của một nhà khoa học dữ liệu chủ yếu liên quan đến việc khám phá và phân tích dữ liệu. Mặc dù kết quả cuối cùng của phân tích dữ liệu có thể là một báo cáo hoặc một mô hình máy học, nhưng các nhà khoa học dữ liệu bắt đầu công việc với dữ liệu, với Python là nhà khoa học dữ liệu ngôn ngữ lập trình phổ biến nhất sử dụng để làm việc với dữ liệu.

Sau nhiều thập kỷ phát triển mã nguồn mở, Python cung cấp chức năng mở rộng với các thư viện thống kê và số mạnh mẽ:

  • NumPy và Pandas đơn giản hóa việc phân tích và thao tác dữ liệu
  • Matplotlib cung cấp trực quan hóa dữ liệu hấp dẫn
  • Scikit-learn cung cấp phân tích dữ liệu dự đoán đơn giản và hiệu quả
  • TensorFlow và PyTorch cung cấp khả năng học máy và học sâu

Kịch bản ví dụ

Thông thường, một dự án phân tích dữ liệu được thiết kế để thiết lập thông tin chuyên sâu về một kịch bản cụ thể hoặc để kiểm tra giả thuyết.

Ví dụ, giả sử một giáo sư đại học thu thập dữ liệu về sinh viên của họ, bao gồm số bài giảng đã tham dự, số giờ học tập, và điểm cuối cùng đạt được vào cuối kỳ thi học kỳ. Giáo sư có thể phân tích dữ liệu để xác định xem có mối quan hệ nào giữa số lượng học sinh đảm nhận và điểm cuối cùng mà họ đạt được hay không. Giáo sư có thể sử dụng dữ liệu để kiểm tra giả thiết rằng chỉ những học sinh nào học tập trong một số giờ tối thiểu mới có thể đạt được điểm đạt điểm cao.

sơ đồ thời gian giảng dạy và học tập liên quan đến điểm số của học viên.

Chúng ta sẽ làm gì?

Trong mô-đun đào tạo này, chúng tôi sẽ khám phá và phân tích dữ liệu điểm số cho một lớp học đại học hư cấu từ quan điểm của giáo sư. Chúng tôi sẽ sử dụng sổ tay Jupyter cũng như một số công cụ và thư viện Python để làm sạch tập dữ liệu, áp dụng kỹ thuật thống kê để kiểm tra một số giả thuyết về dữ liệu và trực quan hóa dữ liệu để xác định mối quan hệ giữa các biến.