Prétraiter les données et configurer la caractérisation

Effectué

Avant de pouvoir exécuter une expérience de Machine Learning automatisé (AutoML), vous devez préparer vos données. Lorsque vous souhaitez entraîner un modèle de classification, il vous suffit de fournir les données d’entraînement.

Une fois que vous avez collecté les données, vous devez créer une ressource de données dans Azure Machine Learning. Pour qu’AutoML comprenne comment lire les données, vous devez créer une ressource de données MLTable qui inclut le schéma des données.

Vous pouvez créer une ressource de données MLTable lorsque vos données sont stockées dans un dossier avec un fichier MLTable. Une fois que vous avez créé la ressource de données, vous pouvez la spécifier en tant qu’entrée avec le code suivant :

from azure.ai.ml.constants import AssetTypes
from azure.ai.ml import Input

my_training_data_input = Input(type=AssetTypes.MLTABLE, path="azureml:input-data-automl:1")

Une fois que vous avez créé la ressource de données, vous pouvez configurer l’expérience AutoML. Avant qu’AutoML entraîne un modèle de classification, des transformations de prétraitement peuvent être appliquées à vos données.

Comprendre la mise à l’échelle et la normalisation

AutoML applique automatiquement la mise à l’échelle et la normalisation aux données numériques, ce qui contribue à empêcher les caractéristiques à grande échelle de dominer l’entraînement. Au cours d’une expérience AutoML, plusieurs techniques de mise à l’échelle ou de normalisation sont appliquées.

Configurer la caractérisation facultative

Vous pouvez faire en sorte qu’AutoML applique des transformations de prétraitement telles que :

  • Imputation des valeur manquantes pour éliminer les valeurs NULL dans le jeu de données d’entraînement
  • Encodage catégoriel pour convertir les caractéristiques catégorielles en indicateurs numériques
  • Suppression des caractéristiques à cardinalité élevée, telles que les ID d’enregistrement
  • Ingénierie des caractéristiques (par exemple, dérivation des parties de date individuelles des caractéristiques DateTime)

Par défaut, AutoML effectue la caractérisation sur vos données. Vous pouvez la désactiver si vous ne souhaitez pas que les données soient transformées.

Si vous souhaitez utiliser la fonction de caractérisation intégrée, vous pouvez la personnaliser. Par exemple, vous pouvez spécifier la méthode d’imputation à utiliser pour une caractéristique spécifique.

Une fois qu’une expérience AutoML est terminée, vous pouvez examiner les méthodes de mise à l’échelle et de normalisation qui ont été appliquées. Vous serez également averti si AutoML a détecté des problèmes avec les données, par exemple s’il y a des valeurs manquantes ou un déséquilibre de classe.