¿Qué es Azure Open Datasets y cómo puede usarse?
Azure Open Datasets son conjuntos de datos públicos mantenidos que puede agregar a características de escenarios específicos a soluciones de aprendizaje automático a fin de obtener modelos más precisos. Open Datasets están disponibles en la nube, en Microsoft Azure. Están integrados en Azure Machine Learning y disponibles de inmediato para Azure Databricks y Machine Learning Studio (clásico). También puede acceder a los conjuntos de datos a través de distintas API y usarlos en otros productos, como Power BI y Azure Data Factory.
Los conjuntos de datos incluyen datos de dominio público para el clima, censos, días festivos, seguridad pública y ubicación, que le ayudarán a entrenar los modelos de Machine Learning y enriquecer las soluciones predictivas. También puede compartir sus conjuntos de datos públicos a través de Azure Open Datasets.
Conjuntos de datos mantenidos, preparados
Los conjuntos de datos públicos abiertos seleccionados en Azure Open Datasets están optimizados para su uso en los flujos de trabajo de aprendizaje automático.
Para obtener más información sobre los conjuntos de datos disponibles, visite el recurso del catálogo de Azure Open Datasets.
En general, los científicos de datos dedican la mayor parte de su tiempo a la limpieza y preparación de los datos para análisis avanzados. Para ahorrar tiempo, los conjuntos de datos abiertos se copian en la nube de Azure y, a continuación, se preprocesan. A intervalos regulares, los datos se extraen de los orígenes, por ejemplo, mediante una conexión FTP a la Administración Nacional Oceánica y Atmosférica (NOAA). A continuación, los datos se analizan en un formato estructurado y, después, se enriquecen según sea necesario con características como el código postal o las ubicaciones de las estaciones meteorológicas más cercanas.
Los conjuntos de datos se hospedan conjuntamente con el proceso en la nube en Azure, para facilitar el acceso y la manipulación.
Estos son ejemplos de conjuntos de datos disponibles:
Datos meteorológicos
Dataset | Cuaderno | Descripción |
---|---|---|
Integrated Surface Data (ISD) de NOAA | Azure Notebooks Azure Databricks |
Datos meteorológicos mundiales por hora de NOAA, con la mejor cobertura espacial en Norteamérica, Europa, Australia y partes de Asia. Actualización diaria. |
Global Forecast System (GFS) de NOAA | Azure Notebooks Azure Databricks |
Datos de previsión meteorológica por hora a 15 días de NOAA para Estados Unidos. Actualización diaria. |
Datos de calendario
Dataset | Cuaderno | Descripción |
---|---|---|
Días festivos públicos | Azure Notebooks Azure Databricks |
Datos mundiales de días festivos públicos, que abarcan 41 naciones o regiones de 1970 a 2099. Incluye el país o región y si la mayoría de las personas cuentan con tiempo de permiso retribuido. |
Acceso a los conjuntos de datos
Con una cuenta de Azure, puede acceder a conjuntos de datos abiertos mediante un código o la interfaz de servicio de Azure. Los datos comparten ubicación con los recursos de proceso en la nube en Azure para su uso en soluciones de aprendizaje automático.
Open Datasets está disponible mediante la interfaz de usuario de Azure Machine Learning y el SDK. Open Datasets proporciona cuadernos de Azure Notebooks y Azure Databricks que pueden conectar los datos a Azure Machine Learning y Azure Databricks. También es posible acceder a los conjuntos de datos a través de un SDK de Python.
Sin embargo, no necesita una cuenta de Azure para acceder a Open Datasets, ya que puede hacerlo desde cualquier entorno de Python, con o sin Spark.
Solicitar o contribuir con conjuntos de datos
Si no encuentra los datos que quiere, envíenos un correo electrónico para solicitar un conjunto de datos o contribuir con un conjunto de datos.
Pasos siguientes
- Cuaderno de ejemplo
- Tutorial: Regression modeling with NY taxi data (Tutorial: Modelado de regresión con datos de taxis de Nueva York)
- SDK de Python para Open Datasets