Delen via


Voorbeelden van Jupyter-notebooks laten zien hoe gegevens kunnen worden verrijkt met Open Datasets

In het voorbeeld van Jupyter-notebooks voor Azure Open Datasets wordt uitgelegd hoe u open gegevenssets laadt en deze gebruikt om demogegevens te verrijken. De technieken omvatten het gebruik van Apache Spark en Pandas om gegevens te verwerken.

Belangrijk

Wanneer u in een niet-Spark-omgeving werkt, kunnen met Open Datasets slechts één maand aan gegevens tegelijk met bepaalde klassen worden gedownload om MemoryError-problemen met grote gegevenssets te voorkomen.

NOAA-ISD-gegevens (Integrated Surface Database) laden

Notebook Beschrijving
Load one recent month of weather data into a Pandas dataframe (Eén actuele maand met weergegevens laden in een Pandas-dataframe) Meer informatie over het laden van historische weergegevens in uw favoriete Pandas-dataframe.
Load one recent month of weather data into a Spark dataframe (Eén actuele maand met weergegevens laden in een Spark-dataframe) Meer informatie over het laden van historische weergegevens in uw favoriete Spark-dataframe.

Voorbeeldgegevens samenvoegen met NOAA-ISD-gegevens

Notebook Beschrijving
Join demo data with weather data - Pandas (Voorbeeldgegevens samenvoegen met weergegevens - Pandas) Voeg een demogegevensset van één maand toe aan sensorlocaties met weermetingen in een Pandas-dataframe.
Join demo data with weather data - Spark (Voorbeeldgegevens samenvoegen met weergegevens - Spark) Voeg een set met voorbeeldgegevens van sensorlocaties samen met weergegevens in een Spark-dataframe.

Gegevens van taxi's in New York samenvoegen met NOAA-ISD-gegevens

Notebook Beschrijving
Taxi trip data enriched with weather data - Pandas (Gegevens over taxiritten verrijkt met weergegevens - Pandas) Laad nyc groene taxigegevens (meer dan één maand) en verrijk deze met weergegevens in een Pandas-dataframe. In dit voorbeeld wordt methode get_pandas_limit overschreven en worden de prestaties van gegevensbelasting met de hoeveelheid gegevens uitgebalanceerd.
Taxi trip data enriched with weather data - Spark (Gegevens over taxiritten verrijkt met weergegevens - Spark) Laad de groene taxigegevens van NYC en verrijk deze met weergegevens in Spark-dataframe.

Volgende stappen