Voorbeelden van Jupyter-notebooks laten zien hoe gegevens kunnen worden verrijkt met Open Datasets
De voorbeelden van Jupyter-notebooks voor Azure Open Datasets tonen hoe u open gegevenssets kunt laden en ze gebruiken om voorbeeldgegevens te verrijken. Voorbeelden van technieken zijn Apache Spark en Pandas voor het verwerken van gegevens.
Belangrijk
Als u in een niet-Spark-omgeving werkt, kunt u met Azure Open Datasets slechts gegevens voor één maand tegelijk downloaden met bepaalde klassen om MemoryError met grote gegevenssets te voorkomen.
NOAA-ISD-gegevens (Integrated Surface Database) laden
Notebook | Beschrijving |
---|---|
Load one recent month of weather data into a Pandas dataframe (Eén actuele maand met weergegevens laden in een Pandas-dataframe) | Meer informatie over het laden van historische weergegevens in uw favoriete Pandas-dataframe. |
Load one recent month of weather data into a Spark dataframe (Eén actuele maand met weergegevens laden in een Spark-dataframe) | Meer informatie over het laden van historische weergegevens in uw favoriete Spark-dataframe. |
Voorbeeldgegevens samenvoegen met NOAA-ISD-gegevens
Notebook | Beschrijving |
---|---|
Join demo data with weather data - Pandas (Voorbeeldgegevens samenvoegen met weergegevens - Pandas) | Voeg een set met voorbeeldgegevens van sensorlocaties gedurende één maand samen met weergegevens in een Panda-dataframe. |
Join demo data with weather data - Spark (Voorbeeldgegevens samenvoegen met weergegevens - Spark) | Voeg een set met voorbeeldgegevens van sensorlocaties samen met weergegevens in een Spark-dataframe. |
Gegevens van taxi's in New York samenvoegen met NOAA-ISD-gegevens
Notebook | Beschrijving |
---|---|
Taxi trip data enriched with weather data - Pandas (Gegevens over taxiritten verrijkt met weergegevens - Pandas) | Laad gegevens van groene taxi's uit New York (meer dan één maand) en verrijk deze met weergegevens in een Panda-dataframe. In dit voorbeeld wordt methode get_pandas_limit overschreven en worden de prestaties van gegevensbelasting met de hoeveelheid gegevens uitgebalanceerd. |
Taxi trip data enriched with weather data - Spark (Gegevens over taxiritten verrijkt met weergegevens - Spark) | Laad gegevens van groene taxi's uit New York en verrijk deze met weergegevens in een Spark-dataframe. |