Pré-processar dados e configurar as características

Concluído

Antes de executar um experimento de aprendizado de máquina automatizado (AutoML), você precisa preparar seus dados. Quando você quiser treinar um modelo de classificação, você só precisará fornecer os dados de treinamento.

Depois de recolher os dados, precisa criar um ativo de dados no Aprendizado de Máquina do Azure. Para que o AutoML entenda como ler os dados, você precisa criar um MLTable data asset que inclua o esquema dos dados.

Você pode criar um ativo de dados MLTable quando seus dados são armazenados em uma pasta junto com um arquivo MLTable. Depois de criar o ativo de dados, você pode especificá-lo como entrada com o seguinte código:

from azure.ai.ml.constants import AssetTypes
from azure.ai.ml import Input

my_training_data_input = Input(type=AssetTypes.MLTABLE, path="azureml:input-data-automl:1")

Depois de criar o ativo de dados, você pode configurar o experimento AutoML. Antes de o AutoML treinar um modelo de classificação, as transformações de pré-processamento podem ser aplicadas aos seus dados.

Compreender o dimensionamento e a normalização

O AutoML aplica dimensionamento e normalização a dados numéricos automaticamente, ajudando a evitar que recursos de grande escala dominem o treinamento. Durante um experimento AutoML, várias técnicas de dimensionamento ou normalização serão aplicadas.

Configurar características opcionais

Você pode optar por fazer com que o AutoML aplique transformações de pré-processamento, como:

  • Imputação de valor ausente para eliminar nulos no conjunto de dados de treinamento.
  • Codificação categórica para converter recursos categóricos em indicadores numéricos.
  • Descartando recursos de alta cardinalidade, como IDs de registro.
  • Engenharia de características (por exemplo, derivando partes individuais de data a partir de características DateTime)

Por padrão, o AutoML executará a featurização em seus dados. Você pode desativá-lo se não quiser que os dados sejam transformados.

Se quiser fazer uso da função de featurização integrada, pode personalizá-la. Por exemplo, você pode especificar qual método de imputação deve ser usado para um recurso específico.

Depois que um experimento AutoML for concluído, você poderá revisar quais métodos de dimensionamento e normalização foram aplicados. Você também será notificado se o AutoML detetar algum problema com os dados, como se há valores ausentes ou desequilíbrio de classe.