Voorbeelden van Jupyter-notebooks laten zien hoe gegevens kunnen worden verrijkt met Open Datasets
In het voorbeeld van Jupyter-notebooks voor Azure Open Datasets wordt uitgelegd hoe u open gegevenssets laadt en deze gebruikt om demogegevens te verrijken. De technieken omvatten het gebruik van Apache Spark en Pandas om gegevens te verwerken.
Belangrijk
Wanneer u in een niet-Spark-omgeving werkt, kunnen met Open Datasets slechts één maand aan gegevens tegelijk met bepaalde klassen worden gedownload om MemoryError-problemen met grote gegevenssets te voorkomen.
NOAA-ISD-gegevens (Integrated Surface Database) laden
Notebook | Beschrijving |
---|---|
Load one recent month of weather data into a Pandas dataframe (Eén actuele maand met weergegevens laden in een Pandas-dataframe) | Meer informatie over het laden van historische weergegevens in uw favoriete Pandas-dataframe. |
Load one recent month of weather data into a Spark dataframe (Eén actuele maand met weergegevens laden in een Spark-dataframe) | Meer informatie over het laden van historische weergegevens in uw favoriete Spark-dataframe. |
Voorbeeldgegevens samenvoegen met NOAA-ISD-gegevens
Notebook | Beschrijving |
---|---|
Join demo data with weather data - Pandas (Voorbeeldgegevens samenvoegen met weergegevens - Pandas) | Voeg een demogegevensset van één maand toe aan sensorlocaties met weermetingen in een Pandas-dataframe. |
Join demo data with weather data - Spark (Voorbeeldgegevens samenvoegen met weergegevens - Spark) | Voeg een set met voorbeeldgegevens van sensorlocaties samen met weergegevens in een Spark-dataframe. |
Gegevens van taxi's in New York samenvoegen met NOAA-ISD-gegevens
Notebook | Beschrijving |
---|---|
Taxi trip data enriched with weather data - Pandas (Gegevens over taxiritten verrijkt met weergegevens - Pandas) | Laad nyc groene taxigegevens (meer dan één maand) en verrijk deze met weergegevens in een Pandas-dataframe. In dit voorbeeld wordt methode get_pandas_limit overschreven en worden de prestaties van gegevensbelasting met de hoeveelheid gegevens uitgebalanceerd. |
Taxi trip data enriched with weather data - Spark (Gegevens over taxiritten verrijkt met weergegevens - Spark) | Laad de groene taxigegevens van NYC en verrijk deze met weergegevens in Spark-dataframe. |