As transformações de dados são usadas para:
- Prepare dados para treinamento de modelo.
- Aplique um modelo importado no formato TensorFlow ou ONNX.
- Pós-processe os dados depois de processados por um modelo.
As transformações neste guia retornam classes que implementam a interface IEstimator. Transformações de dados podem ser encadeadas. Cada transformação espera e produz dados de tipos e formatos específicos, especificados na documentação de referência vinculada.
Algumas transformações de dados requerem dados de treinamento para calcular seus parâmetros. Por exemplo: o transformador NormalizeMeanVariance calcula a média e a variância dos dados de treinamento durante a operação Fit() e usa esses parâmetros na operação Transform().
Outras transformações de dados não requerem dados de treinamento. Por exemplo: a transformação ConvertToGrayscale pode executar a operação Transform() sem ter visto nenhum dado de treinamento durante a operação Fit().
Mapeamento e agrupamento de coluna
| Transformar |
Definição |
Exportável em ONNX |
| Concatenate |
Concatenar uma ou mais colunas de entrada em uma nova coluna de saída |
Sim |
| CopyColumns |
Copiar e renomear uma ou mais colunas de entrada |
Sim |
| DropColumns |
Remover uma ou mais colunas de entrada |
Sim |
| SelectColumns |
Selecione uma ou mais colunas dos dados de entrada para manter |
Sim |
Normalização e dimensionamento
| Transformar |
Definição |
Exportável em ONNX |
| NormalizeMeanVariance |
Subtrair a média (dos dados de treinamento) e dividir pela variação (dos dados de treinamento) |
Sim |
| NormalizeLogMeanVariance |
Normalizar com base no logaritmo dos dados de treinamento |
Sim |
| NormalizeLpNorm |
Escalonar vetores de entrada pela norma-lp, em que p é 1, 2 ou infinito. Por padrão, é utilizada a norma l2 (distância euclidiana) |
Sim |
| NormalizeGlobalContrast |
Dimensionar cada valor em uma linha subtraindo a média dos dados da linha e dividir pelo desvio padrão ou pela norma l2 (dos dados da linha) e multiplicar por um fator de escala configurável (padrão 2) |
Sim |
| NormalizeBinning |
Atribuir o valor de entrada a um índice de bins e dividir pelo número de bins para produzir um valor em ponto flutuante entre 0 e 1. Os limites dos bins são calculados para distribuir uniformemente os dados de treinamento entre os bins |
Sim |
| NormalizeSupervisedBinning |
Atribuir o valor de entrada a um bin baseado em sua correlação com a coluna de rótulo |
Sim |
| NormalizeMinMax |
Dimensionar a entrada pela diferença entre os valores mínimo e máximo nos dados de treinamento |
Sim |
| NormalizeRobustScaling |
Escale cada valor usando estatísticas robustas para exceções que centralizarão os dados em torno de 0 e os dimensionarão de acordo com o intervalo do quantil. |
Sim |
Conversões entre tipos de dados
| Transformar |
Definição |
Exportável do ONNX |
| ConvertType |
Converter o tipo de uma coluna de entrada em um novo tipo |
Sim |
| MapValue |
Mapear valores para chaves (categorias) com base no dicionário de mapeamentos fornecido |
Não |
| MapValueToKey |
Mapear valores para chaves (categorias) criando o mapeamento a partir dos dados de entrada |
Sim |
| MapKeyToValue |
Converta chaves de volta aos seus valores originais |
Sim |
| MapKeyToVector |
Converter chaves de volta para vetores de valores originais |
Sim |
| MapKeyToBinaryVector |
Converter chaves de volta para um vetor binário de valores originais |
Não |
| Hash |
Resumir o valor na coluna de entrada |
Sim |
Transformações de texto
| Transformar |
Definição |
Exportável para ONNX |
| FeaturizeText |
Transformar uma coluna de texto em uma matriz flutuante de contagens de diagramas e de caracteres |
Não |
| TokenizeIntoWords |
Dividir uma ou mais colunas de texto em palavras individuais |
Sim |
| TokenizeIntoCharactersAsKeys |
Dividir uma ou mais colunas de texto em caracteres individuais flutua sobre um conjunto de tópicos |
Sim |
| NormalizeText |
Alterar caracteres maiúsculas e minúsculas, remover marcas diacríticas, sinais de pontuação e números |
Sim |
| ProduceNgrams |
Transformar a coluna de texto em um saco de contagens de ngrams (sequências de palavras consecutivas) |
Sim |
| ProduceWordBags |
Transformar a coluna de texto em um saco de contagem de vetores de n-gramas |
Sim |
| ProduceHashedNgrams |
Transformar coluna de texto em um vetor de contagens de ngram hashed |
Não |
| ProduceHashedWordBags |
Transformar coluna de texto em um conjunto de contagens de n-gramas hashed |
Sim |
| RemoveDefaultStopWords |
Remover palavras de parada padrão do idioma especificado das colunas de entrada. |
Sim |
| RemoveStopWords |
Remove palavras de parada especificadas das colunas de entrada |
Sim |
| LatentDirichletAllocation |
Transformar um documento (representado como um vetor de flutuadores) em um vetor de flutuantes em um conjunto de tópicos |
Sim |
| ApplyWordEmbedding |
Converter vetores de tokens de texto em vetores de sentença usando um modelo pré-treinado |
Sim |
| Transformar |
Definição |
Exportável em ONNX |
| OneHotEncoding |
Converter uma ou mais colunas de texto em vetores codificados one-hot |
Sim |
| OneHotHashEncoding |
Converter uma ou mais colunas de texto em vetores one-hot codificados baseado em hash |
Não |
| Transformar |
Definição |
Exportável do ONNX |
| DetectAnomalyBySrCnn |
Detectar anomalias nos dados de série temporal de entrada usando o algoritmo SR (Spectral Residual) |
Não |
| DetectChangePointBySsa |
Detectar pontos de alteração nos dados de série temporal usando SSA (análise de espectro singular) |
Não |
| DetectIidChangePoint |
Detectar pontos de mudança em dados de série temporal IID (independentes e identicamente distribuídos) usando estimativas adaptativas de densidade de kernel e pontuações de Martingale |
Não |
| ForecastBySsa |
Prever dados de série temporal usando SSA (análise de espectro singular) |
Não |
| DetectSpikeBySsa |
Detectar picos nos dados de série temporal usando a SSA (análise de espectro singular) |
Não |
| DetectIidSpike |
Detectar picos em dados de série temporal IID (independentes e distribuídos de forma idêntica) usando estimativas de densidade de kernel adaptativas e pontuações de Martingale |
Não |
| DetectEntireAnomalyBySrCnn |
Detectar anomalias em todos os dados de entrada usando o algoritmo SRCNN. |
Não |
| DetectSeasonality |
Detecta a sazonalidade usando a análise fourier. |
Não |
| LocalizeRootCause |
Localiza a causa raiz da entrada de série temporal usando um algoritmo de árvore de decisão. |
Não |
| LocalizeRootCauses |
Localiza as causas raiz da entrada de série temporal. |
Não |
Valores ausentes
| Transformar |
Definição |
Exportável do ONNX |
| IndicateMissingValues |
Criar uma nova coluna de saída booleana, cujo valor é verdadeiro quando o valor na coluna de entrada está ausente |
Sim |
| ReplaceMissingValues |
Criar uma nova coluna de saída, cujo valor é configurado para um valor padrão se o valor estiver ausente da coluna de entrada, ou para o valor de entrada, caso contrário. |
Sim |
Seleção de características
| Transformar |
Definição |
Exportável do ONNX |
| ApproximatedKernelMap |
Mapear cada vetor de entrada em um espaço de características de dimensão inferior, onde os produtos internos aproximam uma função de kernel, de modo que as características possam ser usadas como entradas para algoritmos lineares. |
Não |
| ProjectToPrincipalComponents |
Reduzir as dimensões do vetor de recurso de entrada aplicando o algoritmo de Análise de Componente Principal |
|
| Transformar |
Definição |
Exportável do ONNX |
| CalculateFeatureContribution |
Calcular pontuações de contribuição para cada elemento de um vetor de características |
Não |
| Transformar |
Definição |
Exportável do ONNX |
| Platt(String, String, String) |
Transforma uma pontuação bruta de classificador binário em uma probabilidade de classe usando a regressão logística com parâmetros estimados usando os dados de treinamento |
Sim |
| Platt(Double, Double, String) |
Transforma uma pontuação bruta de classificador binário em uma probabilidade de classe usando a regressão logística com parâmetros fixos |
Sim |
| Naive |
Transforma uma pontuação bruta de classificador binário em uma probabilidade de classe atribuindo pontuações a compartimentos e calculando a probabilidade com base na distribuição entre os compartimentos |
Sim |
| Isotonic |
Transforma uma pontuação bruta de classificador binário em uma probabilidade de classe atribuindo pontuações a compartimentos, em que a posição dos limites e o tamanho dos compartimentos são estimados usando os dados de treinamento |
Não |
| Transformar |
Definição |
Exportável para ONNX |
| ApplyOnnxModel |
Transformar os dados de entrada com um modelo ONNX importado |
Não |
| LoadTensorFlowModel |
Transformar os dados de entrada com um modelo TensorFlow importado |
Não |
| Transformar |
Definição |
Exportável em ONNX |
| FilterByCustomPredicate |
Remove linhas em que um predicado especificado retorna true. |
Não |
| FilterByStatefulCustomPredicate |
Remove linhas em que um predicado especificado retorna true, mas permite um estado especificado. |
Não |
| CustomMapping |
Transformar colunas existentes em novas com um mapeamento definido pelo usuário |
Não |
| Expression |
Aplicar uma expressão para transformar colunas em novas |
Não |