Préparer les données pour les tâches de vision par ordinateur avec le Machine Learning automatisé v1

Article
04/10/2024

S’APPLIQUE À :Kit de développement logiciel (SDK) Python azureml v1

Important

Certaines des commandes Azure CLI de cet article utilisent l’extension azure-cli-ml, ou v1, pour Azure Machine Learning. La prise en charge de l’extension v1 se termine le 30 septembre 2025. Vous pourrez installer et utiliser l’extension v1 jusqu’à cette date.

Nous vous recommandons de passer à l’extension ml, ou v2, avant le 30 septembre 2025. Pour plus d’informations sur l’extension v2, consultez Extension Azure ML CLI et le SDK Python v2.

Important

La prise en charge de l’apprentissage des modèles de vision par ordinateur avec ML automatisé dans Azure Machine Learning est une fonctionnalité en préversion publique expérimentale. Certaines fonctionnalités peuvent être limitées ou non prises en charge. Pour plus d’informations, consultez Conditions d’Utilisation Supplémentaires relatives aux Évaluations Microsoft Azure.

Dans cet article, vous allez apprendre à préparer les données d’image pour l’apprentissage des modèles de vision par ordinateur avec des Machine Learning automatisé dans Azure Machine Learning.

Pour générer des modèles destinés à des tâches de vision par ordinateur avec Machine Learning automatisé, vous devez apporter les données d’image étiquetées comme entrées pour la formation de modèles sous la forme d’un TabularDataset Azure Machine Learning.

Pour vous assurer que votre TabularDataset contient le schéma accepté pour la consommation dans le ML automatisé, vous pouvez utiliser l’outil d’étiquetage des données Azure Machine Learning ou un script de conversion.

Prérequis

Familiarisez-vous avec les schémas acceptés pour les fichiers JSONL pour les expériences de vision d’ordinateur AutoML.
Les données étiquetées que vous souhaitez utiliser pour l’apprentissage de modèles de vision par ordinateur avec ML automatisé.

Étiquetage des données Azure Machine Learning

Si vous n’avez pas de données étiquetées, vous pouvez utiliser l'outil d’étiquetage des données d’Azure Machine Learning pour étiqueter manuellement les images. Cet outil génère automatiquement les données requises pour l’apprentissage au format accepté.

Il permet de créer, gérer et surveiller les tâches d’étiquetage des données

Classification d’images (multi-classe et multi-étiquette)
Détection d’objets (cadre englobant)
Segmentation d'instance (polygone)

Si vous disposez déjà d’un projet d’étiquetage des données et que vous souhaitez utiliser ces données, vous pouvez exporter vos données étiquetées comme Azure Machine Learning TabularDataset, qui peut ensuite être utilisé directement avec la ML automatisée pour la formation des modèles de vision par ordinateur.

Utiliser des scripts de conversion

Si vous avez étiqueté des données dans des formats de données de vision par ordinateur populaires, par exemple COV ou COCO, des scripts d’assistance permettant de générer des fichiers JSONL pour les données d’apprentissage et de validation sont disponibles dans des exemples de notebooks.

Si vos données ne suivent aucun des formats mentionnés précédemment, vous pouvez utiliser votre propre script pour générer des fichiers JSON Lines. Pour générer des fichiers de lignes JSON, utilisez des schémas définis dans Schéma pour les fichiers JSONL pour lesexpériences d’image AutoML.

Une fois vos fichiers de données convertis au format JSONL accepté, vous pouvez les charger dans votre compte de stockage sur Azure.

Charger le fichier JSONL et les images vers le stockage

Pour utiliser les données pour l’apprentissage ML automatisé, chargez les données dans votre espace de travail Azure Machine Learning via un magasin de données. Le magasin de données fournit un mécanisme vous permettant de charger/télécharger des données dans le stockage sur Azure, et d’interagir avec elles à partir de vos cibles de calcul distantes.

Chargez le répertoire parent entier constitué d’images et de fichiers JSONL dans le magasin de données par défaut automatiquement généré lors de la création de l’espace de travail. Ce magasin de banques se connecte au conteneur de stockage d’objets blob Azure par défaut généré lors de la création de l’espace de travail.

# Retrieve default datastore that's automatically created when we setup a workspace
ds = ws.get_default_datastore()
ds.upload(src_dir='./fridgeObjects', target_path='fridgeObjects')

Une fois le chargement des données terminé, vous pouvez créer un TabularDataset Azure Machine Learning. Ensuite, inscrivez le jeu de données dans votre espace de travail pour une utilisation ultérieure comme entrée dans vos expériences ML automatisées pour les modèles vision par ordinateur.

from azureml.core import Dataset
from azureml.data import DataType

training_dataset_name = 'fridgeObjectsTrainingDataset'
# create training dataset
training_dataset = Dataset.Tabular.from_json_lines_files(path=ds.path("fridgeObjects/train_annotations.jsonl"),
                                                         set_column_types={"image_url": DataType.to_stream(ds.workspace)}
                                                        )
training_dataset = training_dataset.register( workspace=ws,name=training_dataset_name)

print("Training dataset name: " + training_dataset.name)

Share via

Préparer les données pour les tâches de vision par ordinateur avec le Machine Learning automatisé v1

Prérequis

Étiquetage des données Azure Machine Learning

Utiliser des scripts de conversion

Charger le fichier JSONL et les images vers le stockage

Étapes suivantes

Ressources supplémentaires