顯示如何運用開放資料集擴充資料的 Jupyter Notebook 範例
Azure 開放資料集的 Jupyter Notebook 範例會示範如何載入開放資料集,並使用它們擴充示範資料。 該技術包括使用 Apache Spark 和 Pandas 處理資料。
重要
在非 Spark 環境中工作時,開放資料集僅允許一次下載一個月的特定類別資料,以避免使用大型資料集時發生 MemoryError。
載入 NOAA Integrated Surface Database (ISD) 資料
Notebook | 描述 |
---|---|
將最近一個月的氣象資料載入至 Pandas 資料框架 \(英文\) | 了解如何將歷史氣象資料載入至您最愛的 Pandas 資料框架。 |
將最近一個月的氣象資料載入至 Spark 資料框架 \(英文\) | 了解如何將歷史氣象資料載入至您最愛的 Spark 資料框架。 |
聯結示範資料與 NOAA ISD 資料
Notebook | 描述 |
---|---|
聯結示範資料與氣象資料 - Pandas \(英文\) | 將感應器位置的 1 個月示範資料集與 Pandas 資料框架中的氣象讀數聯結。 |
聯結示範資料與氣象資料 - Spark \(英文\) | 聯結感應器位置的示範資料集與 Spark 資料框架中的氣象讀數。 |
聯結紐約市計程車資料與 NOAA ISD 資料
Notebook | 描述 |
---|---|
加入氣象資料擴充的計程車行程資料 - Pandas \(英文\) | 載入紐約市綠色計程車資料 (1 個月的資料),並加入 Pandas 資料框架中的氣象資料讓内容更豐富。 此範例會覆寫方法 get_pandas_limit 並在資料載入效能與資料量之間取得平衡。 |
加入氣象資料擴充的計程車行程資料 – Spark \(英文\) | 載入紐約市綠色計程車資料,並加入 Spark 資料框架中的氣象資料讓内容更豐富。 |