Preparación de datos para tareas de Computer Vision con aprendizaje automático automatizado v1
SE APLICA A: SDK de Python azureml v1
Importante
Algunos de los comandos de la CLI de Azure de este artículo usan la extensión azure-cli-ml
o v1 para Azure Machine Learning. La compatibilidad con la extensión v1 finalizará el 30 de septiembre de 2025. La extensión v1 se podrá instalar y usar hasta esa fecha.
Se recomienda pasar a la extensión ml
, o v2, antes del 30 de septiembre de 2025. Para más información sobre la extensión v2, consulte Extensión de la CLI de Azure ML y SDK de Python v2.
Importante
La compatibilidad con el entrenamiento de modelos de aprendizaje automático automatizado de Computer Vision en Azure Machine Learning es una característica experimental en versión preliminar pública. Es posible que algunas características no sean compatibles o que tengan sus funcionalidades limitadas. Para más información, consulte Términos de uso complementarios de las Versiones Preliminares de Microsoft Azure.
En este artículo, aprenderá a preparar los datos de imagen para entrenar modelos de Computer Vision con aprendizaje automático automatizado en Azure Machine Learning.
Para generar modelos para tareas de visión por ordenador con AutoML, se necesita aportar datos de imágenes etiquetadas como entrada para el entrenamiento del modelo en forma de Azure Machine Learning TabularDataset.
Para asegurarse de que TabularDataset contiene el esquema aceptado para su consumo en aprendizaje automático automatizado, puede usar la herramienta de etiquetado de datos de Azure Machine Learning o usar un script de conversión.
Requisitos previos
Familiarícese con los esquemas de archivos JSONL aceptados de los experimentos de Computer Vision de AutoML.
Los datos etiquetados que quiere usar para entrenar modelos de Computer Vision con aprendizaje automático automatizado.
Etiquetado de datos de Azure Machine Learning
Si no tiene datos etiquetados, puede usar la herramienta de etiquetado de datos de Azure Machine Learning para etiquetar manualmente las imágenes. Esta herramienta genera automáticamente los datos necesarios para el entrenamiento en el formato aceptado.
Ayuda a crear, administrar y supervisar tareas de etiquetado de datos para:
- Clasificación de imágenes (varias clases y varias etiquetas)
- Detección de objetos (rectángulo de selección)
- Segmentación de instancias (polígono)
Si ya tiene un proyecto de etiquetado de datos y quiere usar esos datos, puede exportar los datos etiquetados como un objeto TabularDataset de Azure Machine Learning, que se puede usar directamente con el aprendizaje automático automatizado para entrenar modelos de Computer Vision.
Uso de scripts de conversión
Si ha etiquetado datos en formatos de datos conocidos de Computer Vision, como VOC o COCO, se proporcionan scripts asistentes para generar archivos JSONL para los datos de entrenamiento y validación en ejemplos de cuadernos.
Si los datos no siguen ninguno de los formatos mencionados anteriormente, puede usar su propio script para generar archivos de líneas JSON. Para generar archivos de líneas JSON, use esquemas definidos en Esquema para archivos JSONL para experimentos de imágenes de AutoML.
Después de convertir los archivos de datos al formato JSONL aceptado, puede cargarlos en la cuenta de almacenamiento en Azure.
Carga del archivo JSONL y las imágenes en el almacenamiento
Para usar los datos en el entrenamiento de aprendizaje automático automatizado, cargue los datos en el área de trabajo de Azure Machine Learning mediante un almacén de datos. El almacén de datos proporciona un mecanismo para cargar o descargar datos en el almacenamiento en Azure e interactuar con ellos desde los destinos de proceso remotos.
Cargue el directorio primario completo que consta de imágenes y archivos JSONL en el almacén de datos predeterminado que se crea automáticamente tras la creación del área de trabajo. Este almacén de datos se conecta al contenedor predeterminado de Azure Blob Storage que se creó como parte de la creación del área de trabajo.
# Retrieve default datastore that's automatically created when we setup a workspace
ds = ws.get_default_datastore()
ds.upload(src_dir='./fridgeObjects', target_path='fridgeObjects')
Una vez finalizada la carga de datos, puede crear una Azure Machine Learning TabularDataset. A continuación, registre el conjunto de datos en su área de trabajo para usarlo más adelante como entrada en sus experimentos automatizados de ML para modelos de visión por ordenador.
from azureml.core import Dataset
from azureml.data import DataType
training_dataset_name = 'fridgeObjectsTrainingDataset'
# create training dataset
training_dataset = Dataset.Tabular.from_json_lines_files(path=ds.path("fridgeObjects/train_annotations.jsonl"),
set_column_types={"image_url": DataType.to_stream(ds.workspace)}
)
training_dataset = training_dataset.register( workspace=ws,name=training_dataset_name)
print("Training dataset name: " + training_dataset.name)