¿Qué es Azure Open Datasets y cómo puede usarse?
Azure Open Datasets son conjuntos de datos públicos mantenidos que puede usar para agregar características de escenarios específicos a soluciones de aprendizaje automático a fin de obtener modelos más precisos. Open Datasets se encuentra en la nube de Microsoft Azure y está integrado en Azure Machine Learning y disponible de inmediato para Azure Databricks y Machine Learning Studio (clásico). También puede acceder a los conjuntos de datos a través de distintas API y usarlos en otros productos, como Power BI y Azure Data Factory.
Los conjuntos de datos incluyen datos de dominio público para el clima, censos, días festivos, seguridad pública y ubicación, que le ayudarán a entrenar los modelos de Machine Learning y enriquecer las soluciones predictivas. También puede compartir sus conjuntos de datos públicos en Azure Open Datasets.
Conjuntos de datos mantenidos, preparados
Los conjuntos de datos públicos abiertos seleccionados en Azure Open Datasets están optimizados para su uso en los flujos de trabajo de aprendizaje automático.
Para ver todos los conjuntos de datos disponibles, vaya al catálogo de conjuntos de datos de Open Datasets de Azure.
En general, los científicos de datos dedican la mayor parte de su tiempo a la limpieza y preparación de los datos para análisis avanzados. Open Datasets se copia a la nube de Azure y se preprocesa para ahorrarle tiempo. A intervalos regulares, los datos se extraen de los orígenes, por ejemplo, mediante una conexión FTP a la Administración Nacional Oceánica y Atmosférica (NOAA). A continuación, los datos se analizan en un formato estructurado y, después, se enriquecen según corresponda con características como el código postal o la ubicación de la estación meteorológica más cercana.
Los conjuntos de datos se hospedan conjuntamente con los procesos en la nube en Azure, lo que facilita el acceso y la manipulación.
A continuación, encontrará ejemplos de conjuntos de datos disponibles.
Datos meteorológicos
Dataset | Cuaderno | Descripción |
---|---|---|
Integrated Surface Data (ISD) de NOAA | Azure Notebooks Azure Databricks |
Datos meteorológicos mundiales por hora de NOAA, con la mejor cobertura espacial en Norteamérica, Europa, Australia y partes de Asia. Actualización diaria. |
Global Forecast System (GFS) de NOAA | Azure Notebooks Azure Databricks |
Datos de previsión meteorológica por hora a 15 días de NOAA para Estados Unidos. Actualización diaria. |
Datos de calendario
Dataset | Cuaderno | Descripción |
---|---|---|
Días festivos públicos | Azure Notebooks Azure Databricks |
Datos mundiales de días festivos públicos, que abarcan 41 países o regiones de 1970 a 2099. Incluye el país o región y si la mayoría de las personas cuentan con tiempo de permiso retribuido. |
Acceso a los conjuntos de datos
Con una cuenta de Azure, puede acceder a conjuntos de datos abiertos mediante un código o la interfaz de servicio de Azure. Los datos comparten ubicación con los recursos de proceso en la nube en Azure para su uso en una solución de aprendizaje automático.
Open Datasets está disponible mediante la interfaz de usuario de Azure Machine Learning y el SDK. Open Datasets proporciona cuadernos de Azure Notebooks y Azure Databricks que puede usar para conectar los datos a Azure Machine Learning y Azure Databricks. También es posible acceder a los conjuntos de datos a través de un SDK de Python.
Sin embargo, no necesita una cuenta de Azure para acceder a Open Datasets, ya que puede hacerlo desde cualquier entorno de Python, con o sin Spark.
Solicitar o contribuir con conjuntos de datos
Si no encuentra los datos que quiere, envíenos un correo electrónico para solicitar un conjunto de datos o contribuir con un conjunto de datos.
Pasos siguientes
- Cuaderno de ejemplo
- Tutorial: Regression modeling with NY taxi data (Tutorial: Modelado de regresión con datos de taxis de Nueva York)
- SDK de Python para Open Datasets