Los cuadernos de Jupyter de ejemplo muestran cómo enriquecer los datos con Open Datasets

2024-09-03

Los cuadernos de Jupyter de ejemplo para Azure Open Datasets explican cómo cargar conjuntos de datos abiertos y usarlos para enriquecer los datos de demostración. Las técnicas incluyen el uso de Apache Spark y Pandas para procesar los datos.

Importante

Al trabajar en un entorno distinto de Spark, Open Datasets permite descargas de un solo mes de datos a la vez con determinadas clases, para evitar problemas de MemoryError con grandes conjuntos de datos.

Cargar datos de Integrated Surface Database (ISD) de NOAA

Notebook	Descripción
Cargar un mes reciente de datos meteorológicos en un dataframe de Pandas	Obtenga información sobre cómo cargar los datos meteorológicos históricos en su dataframe de Pandas favorito.
Cargar un mes reciente de datos meteorológicos en un dataframe de Spark	Obtenga información sobre cómo cargar los datos meteorológicos históricos en su dataframe de Spark favorito.

Unir datos de demostración con datos de ISD de NOAA

Notebook	Descripción
Combinar datos de demostración con datos meteorológicos: Pandas	Una un conjunto de datos de demostración de un mes de ubicaciones de sensores con lecturas meteorológicas en un dataframe de Pandas.
Unir datos de demostración con datos meteorológicos: Spark	Una un conjunto de datos de demostración de ubicaciones de sensores con lecturas meteorológicas en un dataframe de Spark.

Unir datos de taxis de Nueva York con datos de ISD de NOAA

Notebook	Descripción
Datos de viajes de taxis, enriquecidos con datos meteorológicos: Pandas	Cargue datos de taxis verdes de la ciudad de Nueva York (más de un mes) y enriquézcalos con datos meteorológicos en un dataframe de Pandas. Este ejemplo reemplaza el método `get_pandas_limit` y equilibra el rendimiento de carga de datos con la cantidad de datos.
Datos de viajes de taxis enriquecidos con datos meteorológicos: Spark	Cargue datos de taxis verdes de la ciudad de Nueva York y enriquézcalos con datos meteorológicos en un dataframe de Spark.

Pasos siguientes

Tutorial: Regression modeling with automated machine learning and an open dataset (Tutorial: Modelado de regresión con aprendizaje automático automatizado y un conjunto de datos abierto)
SDK de Python para Open Datasets
Catálogo de Azure Open Datasets
Creación de conjuntos de datos de Azure Machine Learning a partir de Open Dataset

Compartir vía

Los cuadernos de Jupyter de ejemplo muestran cómo enriquecer los datos con Open Datasets

Cargar datos de Integrated Surface Database (ISD) de NOAA

Unir datos de demostración con datos de ISD de NOAA

Unir datos de taxis de Nueva York con datos de ISD de NOAA

Pasos siguientes

Comentarios

Recursos adicionales