Voorbeelden van Jupyter-notebooks laten zien hoe gegevens kunnen worden verrijkt met Open Datasets

Artikel
09/01/2024

In het voorbeeld van Jupyter-notebooks voor Azure Open Datasets wordt uitgelegd hoe u open gegevenssets laadt en deze gebruikt om demogegevens te verrijken. De technieken omvatten het gebruik van Apache Spark en Pandas om gegevens te verwerken.

Belangrijk

Wanneer u in een niet-Spark-omgeving werkt, kunnen met Open Datasets slechts één maand aan gegevens tegelijk met bepaalde klassen worden gedownload om MemoryError-problemen met grote gegevenssets te voorkomen.

NOAA-ISD-gegevens (Integrated Surface Database) laden

Notebook	Beschrijving
Load one recent month of weather data into a Pandas dataframe (Eén actuele maand met weergegevens laden in een Pandas-dataframe)	Meer informatie over het laden van historische weergegevens in uw favoriete Pandas-dataframe.
Load one recent month of weather data into a Spark dataframe (Eén actuele maand met weergegevens laden in een Spark-dataframe)	Meer informatie over het laden van historische weergegevens in uw favoriete Spark-dataframe.

Voorbeeldgegevens samenvoegen met NOAA-ISD-gegevens

Notebook	Beschrijving
Join demo data with weather data - Pandas (Voorbeeldgegevens samenvoegen met weergegevens - Pandas)	Voeg een demogegevensset van één maand toe aan sensorlocaties met weermetingen in een Pandas-dataframe.
Join demo data with weather data - Spark (Voorbeeldgegevens samenvoegen met weergegevens - Spark)	Voeg een set met voorbeeldgegevens van sensorlocaties samen met weergegevens in een Spark-dataframe.

Gegevens van taxi's in New York samenvoegen met NOAA-ISD-gegevens

Notebook	Beschrijving
Taxi trip data enriched with weather data - Pandas (Gegevens over taxiritten verrijkt met weergegevens - Pandas)	Laad nyc groene taxigegevens (meer dan één maand) en verrijk deze met weergegevens in een Pandas-dataframe. In dit voorbeeld wordt methode `get_pandas_limit` overschreven en worden de prestaties van gegevensbelasting met de hoeveelheid gegevens uitgebalanceerd.
Taxi trip data enriched with weather data - Spark (Gegevens over taxiritten verrijkt met weergegevens - Spark)	Laad de groene taxigegevens van NYC en verrijk deze met weergegevens in Spark-dataframe.

Share via

Voorbeelden van Jupyter-notebooks laten zien hoe gegevens kunnen worden verrijkt met Open Datasets

NOAA-ISD-gegevens (Integrated Surface Database) laden

Voorbeeldgegevens samenvoegen met NOAA-ISD-gegevens

Gegevens van taxi's in New York samenvoegen met NOAA-ISD-gegevens

Volgende stappen

Feedback

Aanvullende resources