Transformações de dados

As transformações de dados são usadas para:

  • Preparar dados para treinamento de modelo
  • aplicar um modelo importado no formato TensorFlow ou ONNX
  • dados pós-processo depois de terem passado por um modelo

As transformações neste guia retornam classes que implementam a interface IEstimator . As transformações de dados podem ser encadeadas. Cada transformação espera e produz dados de tipos e formatos específicos, que são especificados na documentação de referência vinculada.

Algumas transformações de dados exigem dados de treinamento para calcular seus parâmetros. Por exemplo: o transformador calcula NormalizeMeanVariance a média e a variância dos dados de treinamento durante a Fit() operação e usa esses parâmetros na Transform() operação.

Outras transformações de dados não exigem dados de treinamento. Por exemplo: a ConvertToGrayscale transformação pode executar a Transform() operação sem ter visto nenhum dado de treinamento durante a Fit() operação.

Mapeamento e agrupamento de colunas

Transformação Definição ONNX Exportável
Concatenate Concatenar uma ou mais colunas de entrada em uma nova coluna de saída Sim
CopyColumns Copiar e renomear uma ou mais colunas de entrada Sim
DropColumns Soltar uma ou mais colunas de entrada Sim
SelectColumns Selecione uma ou mais colunas para manter a partir dos dados de entrada Sim

Normalização e dimensionamento

Transformação Definição ONNX Exportável
NormalizeMeanVariance Subtraia a média (dos dados de treinamento) e divida pela variância (dos dados de treinamento) Sim
NormalizeLogMeanVariance Normalizar com base no logaritmo dos dados de treinamento Sim
NormalizeLpNorm Dimensione vetores de entrada por sua norma lp, onde p é 1, 2 ou infinito. Padrão para a norma l2 (distância euclidiana) Sim
NormalizeGlobalContrast Dimensionar cada valor em uma linha subtraindo a média dos dados da linha e dividir pelo desvio padrão ou l2-norma (dos dados da linha), e multiplicar por um fator de escala configurável (padrão 2) Sim
NormalizeBinning Atribua o valor de entrada a um índice de compartimentos e divida pelo número de compartimentos para produzir um valor flutuante entre 0 e 1. Os limites do compartimento são calculados para distribuir uniformemente os dados de treinamento entre os compartimentos Sim
NormalizeSupervisedBinning Atribuir o valor de entrada a um compartimento com base em sua correlação com a coluna de rótulo Sim
NormalizeMinMax Dimensionar a entrada pela diferença entre os valores mínimo e máximo nos dados de treinamento Sim
NormalizeRobustScaling Dimensione cada valor usando estatísticas robustas para valores atípicos que centralizarão os dados em torno de 0 e dimensionará os dados de acordo com o intervalo quantílico. Sim

Conversões entre tipos de dados

Transformação Definição ONNX Exportável
ConvertType Converter o tipo de uma coluna de entrada em um novo tipo Sim
MapValue Mapeie valores para chaves (categorias) com base no dicionário de mapeamentos fornecido Não
MapValueToKey Mapeie valores para chaves (categorias) criando o mapeamento a partir dos dados de entrada Sim
MapKeyToValue Converter chaves de volta aos seus valores originais Sim
MapKeyToVector Converter chaves de volta em vetores de valores originais Sim
MapKeyToBinaryVector Converter chaves de volta para um vetor binário de valores originais Não
Hash Hash o valor na coluna de entrada Sim

Transformações de texto

Transformação Definição ONNX Exportável
FeaturizeText Transformar uma coluna de texto em uma matriz flutuante de ngramas normalizados e contagens de caracteres-gramas Não
TokenizeIntoWords Dividir uma ou mais colunas de texto em palavras individuais Sim
TokenizeIntoCharactersAsKeys Dividir uma ou mais colunas de texto em caracteres individuais flutua sobre um conjunto de tópicos Sim
NormalizeText Alterar maiúsculas e minúsculas, remover sinais diacríticos, sinais de pontuação e números Sim
ProduceNgrams Transformar coluna de texto em um saco de contagens de ngramas (sequências de palavras consecutivas) Sim
ProduceWordBags Transformar coluna de texto em um saco de contagens de ngramas vetor Sim
ProduceHashedNgrams Transformar coluna de texto em um vetor de contagens de ngram com hash Não
ProduceHashedWordBags Transforme a coluna de texto em um pacote de contagens de ngram com hash Sim
RemoveDefaultStopWords Remover palavras de parada padrão para o idioma especificado das colunas de entrada Sim
RemoveStopWords Remove palavras de parada especificadas das colunas de entrada Sim
LatentDirichletAllocation Transformar um documento (representado como um vetor de flutuadores) em um vetor de flutuadores sobre um conjunto de tópicos Sim
ApplyWordEmbedding Converta vetores de tokens de texto em vetores de frase usando um modelo pré-treinado Sim

Transformações de imagem

Transformação Definição ONNX Exportável
ConvertToGrayscale Converter uma imagem em tons de cinza Não
ConvertToImage Converter um vetor de pixels em ImageDataViewType Não
ExtractPixels Converter pixels da imagem de entrada em um vetor de números Não
LoadImages Carregar imagens de uma pasta na memória Não
LoadRawImageBytes Carrega imagens de bytes brutos em uma nova coluna. Não
ResizeImages Redimensionar imagens Não
DnnFeaturizeImage Aplica um modelo de rede neural profunda (DNN) pré-treinado para transformar uma imagem de entrada em um vetor de recurso Não

Transformações categóricas de dados

Transformação Definição ONNX Exportável
OneHotEncoding Converter uma ou mais colunas de texto em vetores codificados a quente Sim
OneHotHashEncoding Converter uma ou mais colunas de texto em vetores codificados one-hot baseados em hash Não

Transformações de dados de séries cronológicas

Transformação Definição ONNX Exportável
DetectAnomalyBySrCnn Detetar anomalias nos dados de séries temporais de entrada usando o algoritmo Spectral Residual (SR) Não
DetectChangePointBySsa Detetar pontos de alteração em dados de séries temporais usando análise de espectro singular (SSA) Não
DetectIidChangePoint Detetar pontos de mudança em dados de séries temporais independentes e distribuídas de forma idêntica (IID) usando estimativas adaptativas de densidade do kernel e pontuações de martingale Não
ForecastBySsa Previsão de dados de séries temporais usando análise de espectro singular (SSA) Não
DetectSpikeBySsa Detetar picos em dados de séries temporais usando análise de espectro singular (SSA) Não
DetectIidSpike Detete picos em dados de séries temporais independentes e distribuídos de forma idêntica (IID) usando estimativas adaptativas de densidade do kernel e pontuações de martingale Não
DetectEntireAnomalyBySrCnn Detete anomalias para todos os dados de entrada usando o algoritmo SRCNN. Não
DetectSeasonality Detete a sazonalidade usando a análise de fourier. Não
LocalizeRootCause Localiza a causa raiz da entrada de séries temporais usando um algoritmo de árvore de decisão. Não
LocalizeRootCauses Localiza as causas raiz da entrada da série tie. Não

Valores em falta

Transformação Definição ONNX Exportável
IndicateMissingValues Crie uma nova coluna de saída booleana, cujo valor é true quando o valor na coluna de entrada está ausente Sim
ReplaceMissingValues Crie uma nova coluna de saída, cujo valor é definido como um valor padrão se o valor estiver ausente da coluna de entrada e, caso contrário, o valor de entrada Sim

Seleção de funcionalidades

Transformação Definição ONNX Exportável
SelectFeaturesBasedOnCount Selecionar recursos cujos valores não padrão são maiores que um limite Sim
SelectFeaturesBasedOnMutualInformation Selecione os recursos dos quais os dados na coluna de rótulo são mais dependentes Sim

Transformações de recursos

Transformação Definição ONNX Exportável
ApproximatedKernelMap Mapeie cada vetor de entrada em um espaço de feição de menor dimensão, onde os produtos internos se aproximam de uma função do kernel, para que os recursos possam ser usados como entradas para os algoritmos lineares Não
ProjectToPrincipalComponents Reduza as dimensões do vetor de recurso de entrada aplicando o algoritmo de Análise de Componentes Principais

Transformações de explicabilidade

Transformação Definição ONNX Exportável
CalculateFeatureContribution Calcular pontuações de contribuição para cada elemento de um vetor de recurso Não

Transformações de calibração

Transformação Definição ONNX Exportável
Platt(String, String, String) Transforma uma pontuação bruta do classificador binário em uma probabilidade de classe usando regressão logística com parâmetros estimados usando os dados de treinamento Sim
Platt(Double, Double, String) Transforma uma pontuação bruta de classificador binário em uma probabilidade de classe usando regressão logística com parâmetros fixos Sim
Naive Transforma uma pontuação bruta de classificador binário em uma probabilidade de classe atribuindo pontuações a compartimentos e calculando a probabilidade com base na distribuição entre os compartimentos Sim
Isotonic Transforma uma pontuação bruta do classificador binário em uma probabilidade de classe atribuindo pontuações a compartimentos, onde a posição dos limites e o tamanho dos compartimentos são estimados usando os dados de treinamento Não

Transformações de aprendizagem profunda

Transformação Definição ONNX Exportável
ApplyOnnxModel Transformar os dados de entrada com um modelo ONNX importado Não
LoadTensorFlowModel Transforme os dados de entrada com um modelo TensorFlow importado Não

Transformações personalizadas

Transformação Definição ONNX Exportável
FilterByCustomPredicate Descarta linhas onde um predicado especificado retorna true. Não
FilterByStatefulCustomPredicate Descarta linhas onde um predicado especificado retorna true, mas permite um estado especificado. Não
CustomMapping Transforme colunas existentes em novas colunas com um mapeamento definido pelo usuário Não
Expression Aplicar uma expressão para transformar colunas em novas Não