サンプル Jupyter Notebooks は、オープン データセットを使用してデータをエンリッチする方法を示します。

Azure オープン データセット用のサンプル Jupyter Notebooks は、オープン データセットを読み込んでデモ データのエンリッチメントのために使用する方法を示します。 データを処理するために手法として Apache Spark と Pandas の使用が含まれます。

重要

Spark 以外の環境で作業している場合、オープン データセットでは、大きなデータセットによる MemoryError を回避するために、特定のクラスの 1 か月分のデータしか一度にダウンロードできません。

NOAA Integrated Surface Database (ISD) データを読み込む

ノートブック 説明
直近 1 か月の気象データを Pandas データフレームに読み込む 過去の気象データをお気に入りの Pandas データフレームに読み込む方法について説明します。
直近 1 か月の気象データを Spark データフレームに読み込む 過去の気象データをお気に入りの Spark データフレームに読み込む方法について説明します。

デモ データを NOAA ISD データと結合する

ノートブック 説明
デモ データと気象データを結合する - Pandas センサー地点の 1 か月のデモ データセットを Pandas データフレームの気象測定値と結合します。
デモ データを気象データと結合する - Spark センサー地点のデモ データセットを Spark データフレームの気象測定値と結合します。

ニューヨーク市のタクシー データを NOAA ISD データと結合する

ノートブック 説明
気象データによってエンリッチされたタクシー乗車データ - Pandas ニューヨーク市のグリーン タクシー データ (1 か月分) を読み込み、気象データによって Pandas データフレームでエンリッチします。 この例は、メソッド get_pandas_limit をオーバーライドして、データ読み込みパフォーマンスとデータ容量のバランスを調整します。
気象データによってエンリッチされたタクシー乗車データ - Spark ニューヨーク市のグリーン タクシー データを読み込み、気象データによって Spark データフレームでエンリッチします。

次のステップ