Transformações de dados

As transformações de dados são usadas para:

Prepare dados para treinamento de modelo.
Aplique um modelo importado no formato TensorFlow ou ONNX.
Pós-processe os dados depois de processados por um modelo.

As transformações neste guia retornam classes que implementam a interface IEstimator. Transformações de dados podem ser encadeadas. Cada transformação espera e produz dados de tipos e formatos específicos, especificados na documentação de referência vinculada.

Algumas transformações de dados requerem dados de treinamento para calcular seus parâmetros. Por exemplo: o transformador NormalizeMeanVariance calcula a média e a variância dos dados de treinamento durante a operação Fit() e usa esses parâmetros na operação Transform().

Outras transformações de dados não requerem dados de treinamento. Por exemplo: a transformação ConvertToGrayscale pode executar a operação Transform() sem ter visto nenhum dado de treinamento durante a operação Fit().

Mapeamento e agrupamento de coluna

Transformar	Definição	Exportável em ONNX
Concatenate	Concatenar uma ou mais colunas de entrada em uma nova coluna de saída	Sim
CopyColumns	Copiar e renomear uma ou mais colunas de entrada	Sim
DropColumns	Remover uma ou mais colunas de entrada	Sim
SelectColumns	Selecione uma ou mais colunas dos dados de entrada para manter	Sim

Normalização e dimensionamento

Transformar	Definição	Exportável em ONNX
NormalizeMeanVariance	Subtrair a média (dos dados de treinamento) e dividir pela variação (dos dados de treinamento)	Sim
NormalizeLogMeanVariance	Normalizar com base no logaritmo dos dados de treinamento	Sim
NormalizeLpNorm	Escalonar vetores de entrada pela norma-lp, em que p é 1, 2 ou infinito. Por padrão, é utilizada a norma l2 (distância euclidiana)	Sim
NormalizeGlobalContrast	Dimensionar cada valor em uma linha subtraindo a média dos dados da linha e dividir pelo desvio padrão ou pela norma l2 (dos dados da linha) e multiplicar por um fator de escala configurável (padrão 2)	Sim
NormalizeBinning	Atribuir o valor de entrada a um índice de bins e dividir pelo número de bins para produzir um valor em ponto flutuante entre 0 e 1. Os limites dos bins são calculados para distribuir uniformemente os dados de treinamento entre os bins	Sim
NormalizeSupervisedBinning	Atribuir o valor de entrada a um bin baseado em sua correlação com a coluna de rótulo	Sim
NormalizeMinMax	Dimensionar a entrada pela diferença entre os valores mínimo e máximo nos dados de treinamento	Sim
NormalizeRobustScaling	Escale cada valor usando estatísticas robustas para exceções que centralizarão os dados em torno de 0 e os dimensionarão de acordo com o intervalo do quantil.	Sim

Conversões entre tipos de dados

Transformar	Definição	Exportável do ONNX
ConvertType	Converter o tipo de uma coluna de entrada em um novo tipo	Sim
MapValue	Mapear valores para chaves (categorias) com base no dicionário de mapeamentos fornecido	Não
MapValueToKey	Mapear valores para chaves (categorias) criando o mapeamento a partir dos dados de entrada	Sim
MapKeyToValue	Converta chaves de volta aos seus valores originais	Sim
MapKeyToVector	Converter chaves de volta para vetores de valores originais	Sim
MapKeyToBinaryVector	Converter chaves de volta para um vetor binário de valores originais	Não
Hash	Resumir o valor na coluna de entrada	Sim

Transformações de texto

Transformar	Definição	Exportável para ONNX
FeaturizeText	Transformar uma coluna de texto em uma matriz flutuante de contagens de diagramas e de caracteres	Não
TokenizeIntoWords	Dividir uma ou mais colunas de texto em palavras individuais	Sim
TokenizeIntoCharactersAsKeys	Dividir uma ou mais colunas de texto em caracteres individuais flutua sobre um conjunto de tópicos	Sim
NormalizeText	Alterar caracteres maiúsculas e minúsculas, remover marcas diacríticas, sinais de pontuação e números	Sim
ProduceNgrams	Transformar a coluna de texto em um saco de contagens de ngrams (sequências de palavras consecutivas)	Sim
ProduceWordBags	Transformar a coluna de texto em um saco de contagem de vetores de n-gramas	Sim
ProduceHashedNgrams	Transformar coluna de texto em um vetor de contagens de ngram hashed	Não
ProduceHashedWordBags	Transformar coluna de texto em um conjunto de contagens de n-gramas hashed	Sim
RemoveDefaultStopWords	Remover palavras de parada padrão do idioma especificado das colunas de entrada.	Sim
RemoveStopWords	Remove palavras de parada especificadas das colunas de entrada	Sim
LatentDirichletAllocation	Transformar um documento (representado como um vetor de flutuadores) em um vetor de flutuantes em um conjunto de tópicos	Sim
ApplyWordEmbedding	Converter vetores de tokens de texto em vetores de sentença usando um modelo pré-treinado	Sim

Transformações de imagem

Transformar	Definição	Exportável em ONNX
ConvertToGrayscale	Converter uma imagem para escala de cinza	Não
ConvertToImage	Converter um vetor de pixels para ImageDataViewType	Não
ExtractPixels	Converter pixels de imagem de entrada em um vetor de números	Não
LoadImages	Carregar imagens de uma pasta na memória	Não
LoadRawImageBytes	Carrega imagens de dados brutos em uma nova coluna.	Não
ResizeImages	Redimensionar imagens	Não
DnnFeaturizeImage	Aplica um modelo de DNN (rede neural profunda) pré-treinado para transformar uma imagem de entrada em um vetor de recurso	Não