Exempel på Jupyter-notebook-filer som visar hur du utökar data med Open Datasets

Jupyter-exempelanteckningsböcker för Azure Open Datasets visar hur du läser in öppna datauppsättningar och använder dem för att utöka demodata. Tekniker omfattar användning av Apache Spark och Pandas för att bearbeta data.

Viktigt

När du arbetar i en icke-Spark-miljö tillåter Open Datasets endast nedladdning av en månads data i taget med vissa klasser för att undvika MemoryError med stora datauppsättningar.

Läs in NOAA ISD-data (Integrated Surface Database)

Notebook-fil Beskrivning
Läs in en ny månad med väderdata i en Pandas-dataram Lär dig hur du läser in historiska väderdata i din favoritdataram för Pandas.
Läs in en ny månad med väderdata i en Spark-dataram Lär dig hur du läser in historiska väderdata i din favorit-Spark-dataram.

Ansluta demodata med NOAA ISD-data

Notebook-fil Beskrivning
Delta i demodata med väderdata – Pandas Delta i en 1-månaders demodatauppsättning med sensorplatser med väderavläsningar i en Pandas-dataram.
Delta i demodata med väderdata – Spark Anslut till en demodatauppsättning med sensorplatser med väderavläsningar i en Spark-dataram.

Koppla NYC-taxidata med NOAA ISD-data

Notebook-fil Beskrivning
Data om taxiresor berikade med väderdata – Pandas Läs in data om grön taxi i NYC (över 1 månad) och utöka dem med väderdata i en Pandas-dataram. Det här exemplet åsidosätter metoden get_pandas_limit och balanserar databelastningsprestanda med mängden data.
Data om taxiresor berikade med väderdata – Spark Läs in NEW NEW Green Taxi-data och utöka dem med väderdata i Spark-dataramen.

Nästa steg