Share via


Creación de conjuntos de datos de Azure Machine Learning en Azure Open Datasets

Precaución

En este artículo se hace referencia a CentOS, una distribución de Linux que está cerca de su estado Final de ciclo vida (EOL). Tenga en cuenta su uso y planeación en consecuencia. Para obtener más información, consulta la Guía de final de la vida útil de CentOS.

En este artículo, aprenderá a incorporar datos de enriquecimiento mantenidos en sus experimentos de aprendizaje automático locales o remotos con conjuntos de datos de Azure Machine Learning y Azure Open Datasets.

Mediante la creación de un conjunto de datos de Azure Machine Learning, creará una referencia a la ubicación del origen de datos, junto con una copia de sus metadatos. Dado que los conjuntos de datos se evalúan de forma diferida y los datos permanecen en su ubicación existente, usted:

  • No generará ningún costo de almacenamiento adicional.
  • No se arriesgará de forma no intencionada cambiando sus orígenes de datos originales.
  • Mejorará las velocidades de rendimiento del flujo de trabajo de ML.

Para comprender el lugar de los almacenes de datos en el flujo de trabajo global de acceso a datos de Azure Machine Learning, consulte el artículo Acceso seguro a los datos.

Azure Open Datasets son conjuntos de datos públicos mantenidos que puede usar para agregar características de escenarios específicos con el fin de enriquecer sus soluciones predictivas y mejorar su precisión. Consulte el Catálogo Open Datasets para encontrar los datos de dominio público que pueden ayudarle a entrenar modelos de Machine Learning, como:

Los conjuntos de datos abiertos están en la nube en Microsoft Azure y se incluyen tanto en el SDK de Azure Machine Learning para Python como en Azure Machine Learning Studio.

Prerrequisitos

Para realizar este artículo, necesitará lo siguiente:

Nota

Algunas clases de conjunto de tipos tienen dependencias en el paquete azureml-dataprep, que solo es compatible con Python de 64 bits. Para los usuarios de Linux, estas clases solo se admiten en las siguientes distribuciones: Red Hat Enterprise Linux (7, 8), Ubuntu (14.04, 16.04, 18.04), Fedora (27, 28), Debian (8, 9) y CentOS (7).

Creación de conjuntos de datos con el SDK

Para crear conjuntos de datos de Azure Machine Learning mediante clases de Azure Open Datasets en el SDK de Python, el paquete se debe haber instalado con pip install azureml-opendatasets. Cada conjunto de datos discretos se representa mediante su propia clase en el SDK y ciertas clases están disponibles como Azure Machine Learning TabularDataset, FileDataset, o ambos. Consulte la documentación de referencia para obtener una lista completa de clases opendatasets.

Puede recuperar ciertas clases opendatasets como TabularDataset o FileDataset, lo que le permite manipular y descargar los archivos directamente. Otras clases solo pueden obtener un conjunto de datos mediante las funciones get_tabular_dataset() o get_file_dataset() de la clase Dataset en el SDK de Python.

En el código siguiente se muestra que la clase opendatasets de MNIST puede devolver TabularDataset o FileDataset.

from azureml.core import Dataset
from azureml.opendatasets import MNIST

# MNIST class can return either TabularDataset or FileDataset
tabular_dataset = MNIST.get_tabular_dataset()
file_dataset = MNIST.get_file_dataset()

En este ejemplo, la clase opendatasets de Diabetes solo está disponible como TabularDataset, de ahí el uso de get_tabular_dataset().


from azureml.opendatasets import Diabetes
from azureml.core import Dataset

# Diabetes class can return ONLY TabularDataset and must be called from the static function
diabetes_tabular = Diabetes.get_tabular_dataset()

Registro de conjuntos de datos

Registre un conjunto de datos de Azure Machine Learning con el área de trabajo, con el fin de que pueda compartirlos con otros usuarios y reutilizarlos en varios experimentos en el área de trabajo. Cuando se registra un conjunto de datos de Azure Machine Learning creado desde Open Datasets, los datos no se descargan inmediatamente, pero se tendrá acceso a ellos más adelante cuando se soliciten (durante el entrenamiento, por ejemplo) desde una ubicación de almacenamiento central.

Para registrar sus conjuntos de datos con un área de trabajo, use el método register().

titanic_ds = titanic_ds.register(workspace=workspace,
                                 name='titanic_ds',
                                 description='titanic training data')

Creación de conjuntos de datos con Studio

También puede crear conjuntos de datos de Azure Machine Learning a partir de Azure Open Datasets con Azure Machine Learning Studio, una interfaz web consolidada que incluye herramientas de aprendizaje automático para llevar a la práctica escenarios de ciencia de datos para los profesionales de ciencia de datos de todos los niveles de conocimiento.

Nota

Los conjuntos de datos creados mediante Azure Machine Learning Studio se registran automáticamente en el área de trabajo.

  1. En el área de trabajo, seleccione la pestaña Conjunto de datos en Recursos. En el menú desplegable Crear conjunto de datos, seleccione From Open Datasets (Desde Open Datasets).

    Abrir un conjunto de datos con la interfaz de usuario

  2. Seleccione un conjunto de datos seleccionando su icono (tiene la opción de filtrar mediante la barra de búsqueda). Seleccione Next (Siguiente).

    Elegir conjunto de datos

  3. Elija el nombre con que va a registrar el conjunto de datos y, opcionalmente, filtre los datos mediante los filtros disponibles. En este caso, para el conjunto de datos de días festivos público, filtre el período a un año y el código de país a solo EE. UU. Consulte el Catálogo de Azure Open Datasets para ver datos detallados como, por ejemplo, descripciones del campo e intervalos de fechas. Seleccione Crear.

    Establecer parámetros del conjunto de datos y crear conjunto de datos

    El conjunto de valores ahora está disponible en su área de trabajo, en Conjunto de datos. Puede usarlo de la misma manera que otros conjuntos de valores que haya creado.

Acceso a los conjuntos de datos de los experimentos

Use sus conjuntos de datos en los experimentos de aprendizaje automático para entrenar modelos de aprendizaje automático. Obtenga más información sobre cómo entrenar con conjuntos de datos.

Cuadernos de ejemplo

Puede encontrar ejemplos y demostraciones de la funcionalidad de Open Datasets en estos cuadernos de ejemplo.

Pasos siguientes