Creación de conjuntos de datos de Azure Machine Learning en Azure Open Datasets

Artículo
03/21/2024

Precaución

En este artículo se hace referencia a CentOS, una distribución de Linux que está cerca de su estado Final de ciclo vida (EOL). Tenga en cuenta su uso y planeación en consecuencia. Para obtener más información, consulta la Guía de final de la vida útil de CentOS.

En este artículo, aprenderá a incorporar datos de enriquecimiento mantenidos en sus experimentos de aprendizaje automático locales o remotos con conjuntos de datos de Azure Machine Learning y Azure Open Datasets.

Mediante la creación de un conjunto de datos de Azure Machine Learning, creará una referencia a la ubicación del origen de datos, junto con una copia de sus metadatos. Dado que los conjuntos de datos se evalúan de forma diferida y los datos permanecen en su ubicación existente, usted:

No generará ningún costo de almacenamiento adicional.
No se arriesgará de forma no intencionada cambiando sus orígenes de datos originales.
Mejorará las velocidades de rendimiento del flujo de trabajo de ML.

Para comprender el lugar de los almacenes de datos en el flujo de trabajo global de acceso a datos de Azure Machine Learning, consulte el artículo Acceso seguro a los datos.

Azure Open Datasets son conjuntos de datos públicos mantenidos que puede usar para agregar características de escenarios específicos con el fin de enriquecer sus soluciones predictivas y mejorar su precisión. Consulte el Catálogo Open Datasets para encontrar los datos de dominio público que pueden ayudarle a entrenar modelos de Machine Learning, como:

Los conjuntos de datos abiertos están en la nube en Microsoft Azure y se incluyen tanto en el SDK de Azure Machine Learning para Python como en Azure Machine Learning Studio.

Prerrequisitos

Para realizar este artículo, necesitará lo siguiente:

Suscripción a Azure. Si no tiene una, cree una cuenta gratuita antes de empezar. Pruebe la versión gratuita o de pago de Azure Machine Learning.
Un área de trabajo de Azure Machine Learning.
El SDK de Azure Machine Learning para Python instalado, que incluye el paquete azureml-datasets.
- Cree una instancia de proceso de Azure Machine Learning que sea un entorno de desarrollo completamente configurado y administrado que incluya cuadernos integrados y el SDK ya instalado.
OR
- Trabaje en su propio entorno de Python e instale el SDK con estas instrucciones.

Nota

Algunas clases de conjunto de tipos tienen dependencias en el paquete azureml-dataprep, que solo es compatible con Python de 64 bits. Para los usuarios de Linux, estas clases solo se admiten en las siguientes distribuciones: Red Hat Enterprise Linux (7, 8), Ubuntu (14.04, 16.04, 18.04), Fedora (27, 28), Debian (8, 9) y CentOS (7).

Creación de conjuntos de datos con el SDK

Para crear conjuntos de datos de Azure Machine Learning mediante clases de Azure Open Datasets en el SDK de Python, el paquete se debe haber instalado con pip install azureml-opendatasets. Cada conjunto de datos discretos se representa mediante su propia clase en el SDK y ciertas clases están disponibles como Azure Machine Learning TabularDataset, FileDataset, o ambos. Consulte la documentación de referencia para obtener una lista completa de clases opendatasets.

Puede recuperar ciertas clases opendatasets como TabularDataset o FileDataset, lo que le permite manipular y descargar los archivos directamente. Otras clases solo pueden obtener un conjunto de datos mediante las funciones get_tabular_dataset() o get_file_dataset() de la clase Dataset en el SDK de Python.

En el código siguiente se muestra que la clase opendatasets de MNIST puede devolver TabularDataset o FileDataset.

from azureml.core import Dataset
from azureml.opendatasets import MNIST

# MNIST class can return either TabularDataset or FileDataset
tabular_dataset = MNIST.get_tabular_dataset()
file_dataset = MNIST.get_file_dataset()

En este ejemplo, la clase opendatasets de Diabetes solo está disponible como TabularDataset, de ahí el uso de get_tabular_dataset().


from azureml.opendatasets import Diabetes
from azureml.core import Dataset

# Diabetes class can return ONLY TabularDataset and must be called from the static function
diabetes_tabular = Diabetes.get_tabular_dataset()

Registro de conjuntos de datos

Registre un conjunto de datos de Azure Machine Learning con el área de trabajo, con el fin de que pueda compartirlos con otros usuarios y reutilizarlos en varios experimentos en el área de trabajo. Cuando se registra un conjunto de datos de Azure Machine Learning creado desde Open Datasets, los datos no se descargan inmediatamente, pero se tendrá acceso a ellos más adelante cuando se soliciten (durante el entrenamiento, por ejemplo) desde una ubicación de almacenamiento central.

Para registrar sus conjuntos de datos con un área de trabajo, use el método register().

titanic_ds = titanic_ds.register(workspace=workspace,
                                 name='titanic_ds',
                                 description='titanic training data')

Creación de conjuntos de datos con Studio

También puede crear conjuntos de datos de Azure Machine Learning a partir de Azure Open Datasets con Azure Machine Learning Studio, una interfaz web consolidada que incluye herramientas de aprendizaje automático para llevar a la práctica escenarios de ciencia de datos para los profesionales de ciencia de datos de todos los niveles de conocimiento.

Nota

Los conjuntos de datos creados mediante Azure Machine Learning Studio se registran automáticamente en el área de trabajo.

En el área de trabajo, seleccione la pestaña Conjunto de datos en Recursos. En el menú desplegable Crear conjunto de datos, seleccione From Open Datasets (Desde Open Datasets).
Seleccione un conjunto de datos seleccionando su icono (tiene la opción de filtrar mediante la barra de búsqueda). Seleccione Next (Siguiente).
Elija el nombre con que va a registrar el conjunto de datos y, opcionalmente, filtre los datos mediante los filtros disponibles. En este caso, para el conjunto de datos de días festivos público, filtre el período a un año y el código de país a solo EE. UU. Consulte el Catálogo de Azure Open Datasets para ver datos detallados como, por ejemplo, descripciones del campo e intervalos de fechas. Seleccione Crear.

El conjunto de valores ahora está disponible en su área de trabajo, en Conjunto de datos. Puede usarlo de la misma manera que otros conjuntos de valores que haya creado.

Acceso a los conjuntos de datos de los experimentos

Use sus conjuntos de datos en los experimentos de aprendizaje automático para entrenar modelos de aprendizaje automático. Obtenga más información sobre cómo entrenar con conjuntos de datos.

Cuadernos de ejemplo

Puede encontrar ejemplos y demostraciones de la funcionalidad de Open Datasets en estos cuadernos de ejemplo.

Share via