Nota
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Los cuadernos de Jupyter de ejemplo para Azure Open Datasets explican cómo cargar conjuntos de datos abiertos y usarlos para enriquecer los datos de demostración. Las técnicas incluyen el uso de Apache Spark y Pandas para procesar los datos.
Importante
Al trabajar en un entorno distinto de Spark, Open Datasets permite descargas de un solo mes de datos a la vez con determinadas clases, para evitar problemas de MemoryError con grandes conjuntos de datos.
Cargar datos de Integrated Surface Database (ISD) de NOAA
Notebook | Descripción |
---|---|
Cargar un mes reciente de datos meteorológicos en un dataframe de Pandas | Obtenga información sobre cómo cargar los datos meteorológicos históricos en su dataframe de Pandas favorito. |
Cargar un mes reciente de datos meteorológicos en un dataframe de Spark | Obtenga información sobre cómo cargar los datos meteorológicos históricos en su dataframe de Spark favorito. |
Unir datos de demostración con datos de ISD de NOAA
Notebook | Descripción |
---|---|
Combinar datos de demostración con datos meteorológicos: Pandas | Una un conjunto de datos de demostración de un mes de ubicaciones de sensores con lecturas meteorológicas en un dataframe de Pandas. |
Unir datos de demostración con datos meteorológicos: Spark | Una un conjunto de datos de demostración de ubicaciones de sensores con lecturas meteorológicas en un dataframe de Spark. |
Unir datos de taxis de Nueva York con datos de ISD de NOAA
Notebook | Descripción |
---|---|
Datos de viajes de taxis, enriquecidos con datos meteorológicos: Pandas | Cargue datos de taxis verdes de la ciudad de Nueva York (más de un mes) y enriquézcalos con datos meteorológicos en un dataframe de Pandas. Este ejemplo reemplaza el método get_pandas_limit y equilibra el rendimiento de carga de datos con la cantidad de datos. |
Datos de viajes de taxis enriquecidos con datos meteorológicos: Spark | Cargue datos de taxis verdes de la ciudad de Nueva York y enriquézcalos con datos meteorológicos en un dataframe de Spark. |
Pasos siguientes
- Tutorial: Regression modeling with automated machine learning and an open dataset (Tutorial: Modelado de regresión con aprendizaje automático automatizado y un conjunto de datos abierto)
- SDK de Python para Open Datasets
- Catálogo de Azure Open Datasets
- Creación de conjuntos de datos de Azure Machine Learning a partir de Open Dataset