Compartir vía


Los cuadernos de Jupyter de ejemplo muestran cómo enriquecer los datos con Open Datasets

Los cuadernos de Jupyter de ejemplo para Azure Open Datasets explican cómo cargar conjuntos de datos abiertos y usarlos para enriquecer los datos de demostración. Las técnicas incluyen el uso de Apache Spark y Pandas para procesar los datos.

Importante

Al trabajar en un entorno distinto de Spark, Open Datasets permite descargas de un solo mes de datos a la vez con determinadas clases, para evitar problemas de MemoryError con grandes conjuntos de datos.

Cargar datos de Integrated Surface Database (ISD) de NOAA

Notebook Descripción
Cargar un mes reciente de datos meteorológicos en un dataframe de Pandas Obtenga información sobre cómo cargar los datos meteorológicos históricos en su dataframe de Pandas favorito.
Cargar un mes reciente de datos meteorológicos en un dataframe de Spark Obtenga información sobre cómo cargar los datos meteorológicos históricos en su dataframe de Spark favorito.

Unir datos de demostración con datos de ISD de NOAA

Notebook Descripción
Combinar datos de demostración con datos meteorológicos: Pandas Una un conjunto de datos de demostración de un mes de ubicaciones de sensores con lecturas meteorológicas en un dataframe de Pandas.
Unir datos de demostración con datos meteorológicos: Spark Una un conjunto de datos de demostración de ubicaciones de sensores con lecturas meteorológicas en un dataframe de Spark.

Unir datos de taxis de Nueva York con datos de ISD de NOAA

Notebook Descripción
Datos de viajes de taxis, enriquecidos con datos meteorológicos: Pandas Cargue datos de taxis verdes de la ciudad de Nueva York (más de un mes) y enriquézcalos con datos meteorológicos en un dataframe de Pandas. Este ejemplo reemplaza el método get_pandas_limit y equilibra el rendimiento de carga de datos con la cantidad de datos.
Datos de viajes de taxis enriquecidos con datos meteorológicos: Spark Cargue datos de taxis verdes de la ciudad de Nueva York y enriquézcalos con datos meteorológicos en un dataframe de Spark.

Pasos siguientes