Compartir vía


¿Qué es Azure Open Datasets y cómo puede usarse?

Azure Open Datasets son conjuntos de datos públicos mantenidos que puede agregar a características de escenarios específicos a soluciones de aprendizaje automático a fin de obtener modelos más precisos. Open Datasets están disponibles en la nube, en Microsoft Azure. Están integrados en Azure Machine Learning y disponibles de inmediato para Azure Databricks y Machine Learning Studio (clásico). También puede acceder a los conjuntos de datos a través de distintas API y usarlos en otros productos, como Power BI y Azure Data Factory.

Los conjuntos de datos incluyen datos de dominio público para el clima, censos, días festivos, seguridad pública y ubicación, que le ayudarán a entrenar los modelos de Machine Learning y enriquecer las soluciones predictivas. También puede compartir sus conjuntos de datos públicos a través de Azure Open Datasets.

Diagrama que muestra los bloques de creación del servicio Azure Open Datasets.

Conjuntos de datos mantenidos, preparados

Los conjuntos de datos públicos abiertos seleccionados en Azure Open Datasets están optimizados para su uso en los flujos de trabajo de aprendizaje automático.

Para obtener más información sobre los conjuntos de datos disponibles, visite el recurso del catálogo de Azure Open Datasets.

En general, los científicos de datos dedican la mayor parte de su tiempo a la limpieza y preparación de los datos para análisis avanzados. Para ahorrar tiempo, los conjuntos de datos abiertos se copian en la nube de Azure y, a continuación, se preprocesan. A intervalos regulares, los datos se extraen de los orígenes, por ejemplo, mediante una conexión FTP a la Administración Nacional Oceánica y Atmosférica (NOAA). A continuación, los datos se analizan en un formato estructurado y, después, se enriquecen según sea necesario con características como el código postal o las ubicaciones de las estaciones meteorológicas más cercanas.

Los conjuntos de datos se hospedan conjuntamente con el proceso en la nube en Azure, para facilitar el acceso y la manipulación.

Estos son ejemplos de conjuntos de datos disponibles:

Datos meteorológicos

Dataset Cuaderno Descripción
Integrated Surface Data (ISD) de NOAA Azure Notebooks
Azure Databricks
Datos meteorológicos mundiales por hora de NOAA, con la mejor cobertura espacial en Norteamérica, Europa, Australia y partes de Asia. Actualización diaria.
Global Forecast System (GFS) de NOAA Azure Notebooks
Azure Databricks
Datos de previsión meteorológica por hora a 15 días de NOAA para Estados Unidos. Actualización diaria.

Datos de calendario

Dataset Cuaderno Descripción
Días festivos públicos Azure Notebooks
Azure Databricks
Datos mundiales de días festivos públicos, que abarcan 41 naciones o regiones de 1970 a 2099. Incluye el país o región y si la mayoría de las personas cuentan con tiempo de permiso retribuido.

Acceso a los conjuntos de datos

Con una cuenta de Azure, puede acceder a conjuntos de datos abiertos mediante un código o la interfaz de servicio de Azure. Los datos comparten ubicación con los recursos de proceso en la nube en Azure para su uso en soluciones de aprendizaje automático.

Open Datasets está disponible mediante la interfaz de usuario de Azure Machine Learning y el SDK. Open Datasets proporciona cuadernos de Azure Notebooks y Azure Databricks que pueden conectar los datos a Azure Machine Learning y Azure Databricks. También es posible acceder a los conjuntos de datos a través de un SDK de Python.

Sin embargo, no necesita una cuenta de Azure para acceder a Open Datasets, ya que puede hacerlo desde cualquier entorno de Python, con o sin Spark.

Solicitar o contribuir con conjuntos de datos

Si no encuentra los datos que quiere, envíenos un correo electrónico para solicitar un conjunto de datos o contribuir con un conjunto de datos.

Pasos siguientes