Los cuadernos de Jupyter de ejemplo muestran cómo enriquecer los datos con Open Datasets
Artículo
Los cuadernos de Jupyter de ejemplo para Azure Open Datasets explican cómo cargar conjuntos de datos abiertos y usarlos para enriquecer los datos de demostración. Las técnicas incluyen el uso de Apache Spark y Pandas para procesar los datos.
Importante
Al trabajar en un entorno distinto de Spark, Open Datasets permite descargas de un solo mes de datos a la vez con determinadas clases, para evitar problemas de MemoryError con grandes conjuntos de datos.
Cargar datos de Integrated Surface Database (ISD) de NOAA
Cargue datos de taxis verdes de la ciudad de Nueva York (más de un mes) y enriquézcalos con datos meteorológicos en un dataframe de Pandas. Este ejemplo reemplaza el método get_pandas_limit y equilibra el rendimiento de carga de datos con la cantidad de datos.
Administre la ingesta y preparación de datos, el entrenamiento y la implementación de modelos, y la supervisión de soluciones de aprendizaje automático con Python, Azure Machine Learning y MLflow.