使用 NumPy 和 Pandas 探索資料
資料科學家可以使用各種工具和技術來探索、視覺化及操作資料。 資料科學家處理資料的最常見方式之一,就是使用 Python 語言和一些特定的套件來處理資料。
什麼是 NumPy?
NumPy 是一種 Python 程式庫,可提供相當於數學工具 (例如 MATLAB 和 R) 的功能。雖然 NumPy 可大幅簡化使用者體驗,但它也提供完整的數學函數。
什麼是 Pandas?
Pandas 是非常熱門的 Python 程式庫,可進行資料分析和操作。 Pandas 就像是適用於 Python 的試算表應用程式 - 提供容易使用的資料表功能。
探索筆記本中的資料
筆記本是使用 Web 瀏覽器執行基本指令碼的熱門方式。 通常,這些筆記本是一個網頁,分為可以單獨運行的文本部分和代碼部分。
測試假設
資料探索和分析通常是疊代流程,其中的資料科學家會取得資料的範例,並執行下列類型的工作來分析和測試假設:
- 清除資料以處理錯誤、遺漏值和其他問題。
- 套用統計技術進一步了解資料,並瞭解樣本如何可能如預期中代表實際的資料母體,且將隨機變化納入考量。
- 將資料視覺化,以判斷變數之間的關聯性,並且在機器學習專案的情況下,識別可能為標籤預測的功能。
- 修訂假設,然後重複此流程。