簡介

已完成

可想而知,資料科學家的角色主要牽涉到探索和分析資料。 雖然資料分析的最終結果可能是報表或機器學習模型,但資料科學家會開始使用資料,而 Python 是最常用的程式設計語言資料科學家,可用來處理資料。

在數十年的開放原始碼開發之後,Python 會使用強大的統計和數值程式庫提供廣泛的功能:

  • NumPy 和 Pandas 可簡化分析和操作資料的過程
  • Matplotlib 提供吸引人的資料視覺效果
  • Scikit-learn 提供簡單且有效的預測性資料分析
  • TensorFlow 和 PyTorch 提供機器學習和深度學習功能

範例案例

一般來說,資料分析專案的設計是要建立有關特定案例的深入解析,或測試假設。

例如,假設大學教授從他們的學生那裡收集資料,包括出席的講座次數、研究所花費的時數,以及期末考時獲得的最終成績。 教授可以分析資料,以判斷學生進行的研究量與他們獲得的最終成績之間是否有關聯性。 教授可能會使用資料來測試一種假設,即只有學習達到最低時數的學生才能預期獲得及格等級。

與學生成績相關的講座和研究時間的圖表。

我們將會怎麼做?

在此訓練課程模組中,我們將從教授的觀點探索和分析虛構大學班級的成績資料。 我們將使用 Jupyter Notebook 和數個 Python 工具和程式庫來清除資料集、套用統計技術來測試資料的數個假設,以及將資料視覺化以判斷變數之間的關聯性。