顯示如何運用開放資料集擴充資料的 Jupyter Notebook 範例

Azure 開放資料集的 Jupyter Notebook 範例會示範如何載入開放資料集,並使用它們擴充示範資料。 這些技術包括使用 Apache Spark 和 Pandas 處理資料。

重要

在非 Spark 環境中工作時,開放資料集僅允許一次下載一個月含特定類別的資料,以避免使用大型資料集時發生 MemoryError。

載入 NOAA Integrated Surface Database (ISD) 資料

Notebook 描述
將最近一個月的氣象資料載入至 Pandas 資料框架 \(英文\) 了解如何將歷史氣象資料載入至您最愛的 Pandas 資料框架。
將最近一個月的氣象資料載入至 Spark 資料框架 \(英文\) 了解如何將歷史氣象資料載入至您最愛的 Spark 資料框架。

聯結示範資料與 NOAA ISD 資料

Notebook 描述
聯結示範資料與氣象資料 - Pandas \(英文\) 聯結感應器位置的 1 個月示範資料集與 Pandas 資料框架中的氣象讀數。
聯結示範資料與氣象資料 - Spark \(英文\) 聯結感應器位置的示範資料集與 Spark 資料框架中的氣象讀數。

聯結紐約市計程車資料與 NOAA ISD 資料

Notebook 描述
加入氣象資料擴充的計程車行程資料 - Pandas \(英文\) 載入紐約市綠色計程車資料 (超過 1 個月),並加入 Pandas 資料框架中的氣象資料進行擴充。 此範例會覆寫方法 get_pandas_limit 並在資料載入效能與資料量之間取得平衡。
加入氣象資料擴充的計程車行程資料 – Spark \(英文\) 載入紐約市綠色計程車資料,並加入 Spark 資料框架中的氣象資料進行擴充。

後續步驟