As transformações de dados são usadas para:
- Prepare dados para treinamento de modelos.
- Aplique um modelo importado no formato TensorFlow ou ONNX.
- Pós-processar dados depois de terem passado por um modelo.
As transformações neste guia retornam classes que implementam a interface IEstimator . As transformações de dados podem ser encadeadas. Cada transformação espera e produz dados de tipos e formatos específicos, que são especificados na documentação de referência vinculada.
Algumas transformações de dados exigem dados de treinamento para calcular seus parâmetros. Por exemplo: o transformador calcula NormalizeMeanVariance a média e a variância dos dados de treinamento durante a Fit() operação e usa esses parâmetros na Transform() operação.
Outras transformações de dados não exigem dados de treinamento. Por exemplo: a ConvertToGrayscale transformação pode executar a Transform() operação sem ter visto nenhum dado de treinamento durante a Fit() operação.
Mapeamento e agrupamento de colunas
| Transformação |
Definição |
ONNX Exportável |
| Concatenate |
Concatenar uma ou mais colunas de entrada em uma nova coluna de saída |
Sim |
| CopyColumns |
Copiar e renomear uma ou mais colunas de entrada |
Sim |
| DropColumns |
Soltar uma ou mais colunas de entrada |
Sim |
| SelectColumns |
Selecione uma ou mais colunas para manter a partir dos dados de entrada |
Sim |
Normalização e dimensionamento
| Transformação |
Definição |
ONNX Exportável |
| NormalizeMeanVariance |
Subtraia a média (dos dados de treinamento) e divida pela variância (dos dados de treinamento) |
Sim |
| NormalizeLogMeanVariance |
Normalizar com base no logaritmo dos dados de treinamento |
Sim |
| NormalizeLpNorm |
Dimensione vetores de entrada por sua norma lp, onde p é 1, 2 ou infinito. Padrão para a norma l2 (distância euclidiana) |
Sim |
| NormalizeGlobalContrast |
Dimensionar cada valor em uma linha subtraindo a média dos dados da linha e dividir pelo desvio padrão ou l2-norma (dos dados da linha), e multiplicar por um fator de escala configurável (padrão 2) |
Sim |
| NormalizeBinning |
Atribua o valor de entrada a um índice de compartimentos e divida pelo número de compartimentos para produzir um valor flutuante entre 0 e 1. Os limites do compartimento são calculados para distribuir uniformemente os dados de treinamento entre os compartimentos |
Sim |
| NormalizeSupervisedBinning |
Atribuir o valor de entrada a um compartimento com base em sua correlação com a coluna de rótulo |
Sim |
| NormalizeMinMax |
Dimensionar a entrada pela diferença entre os valores mínimo e máximo nos dados de treinamento |
Sim |
| NormalizeRobustScaling |
Dimensione cada valor usando estatísticas robustas para valores atípicos que centralizarão os dados em torno de 0 e dimensionará os dados de acordo com o intervalo quantílico. |
Sim |
Conversões entre tipos de dados
| Transformação |
Definição |
ONNX Exportável |
| ConvertType |
Converter o tipo de uma coluna de entrada em um novo tipo |
Sim |
| MapValue |
Mapeie valores para chaves (categorias) com base no dicionário de mapeamentos fornecido |
Não |
| MapValueToKey |
Mapeie valores para chaves (categorias) criando o mapeamento a partir dos dados de entrada |
Sim |
| MapKeyToValue |
Converter chaves de volta aos seus valores originais |
Sim |
| MapKeyToVector |
Converter chaves de volta em vetores de valores originais |
Sim |
| MapKeyToBinaryVector |
Converter chaves de volta para um vetor binário de valores originais |
Não |
| Hash |
Hash o valor na coluna de entrada |
Sim |
Transformações de texto
| Transformação |
Definição |
ONNX Exportável |
| FeaturizeText |
Transformar uma coluna de texto em uma matriz flutuante de ngramas normalizados e contagens de caracteres-gramas |
Não |
| TokenizeIntoWords |
Dividir uma ou mais colunas de texto em palavras individuais |
Sim |
| TokenizeIntoCharactersAsKeys |
Dividir uma ou mais colunas de texto em caracteres individuais flutua sobre um conjunto de tópicos |
Sim |
| NormalizeText |
Alterar maiúsculas e minúsculas, remover sinais diacríticos, sinais de pontuação e números |
Sim |
| ProduceNgrams |
Transformar coluna de texto em um saco de contagens de ngramas (sequências de palavras consecutivas) |
Sim |
| ProduceWordBags |
Transformar coluna de texto em um saco de contagens de ngramas vetor |
Sim |
| ProduceHashedNgrams |
Transformar coluna de texto em um vetor de contagens de ngram com hash |
Não |
| ProduceHashedWordBags |
Transforme a coluna de texto em um pacote de contagens de ngram com hash |
Sim |
| RemoveDefaultStopWords |
Remover palavras de parada padrão para o idioma especificado das colunas de entrada |
Sim |
| RemoveStopWords |
Remove palavras de parada especificadas das colunas de entrada |
Sim |
| LatentDirichletAllocation |
Transformar um documento (representado como um vetor de flutuadores) em um vetor de flutuadores sobre um conjunto de tópicos |
Sim |
| ApplyWordEmbedding |
Converter vetores de tokens de texto em vetores de frase usando um modelo pré-treinado |
Sim |
| Transformação |
Definição |
ONNX Exportável |
| DetectAnomalyBySrCnn |
Detetar anomalias nos dados de séries temporais de entrada usando o algoritmo Spectral Residual (SR) |
Não |
| DetectChangePointBySsa |
Detetar pontos de alteração em dados de séries temporais usando análise de espectro singular (SSA) |
Não |
| DetectIidChangePoint |
Detetar pontos de mudança em dados de séries temporais independentes e distribuídas de forma idêntica (IID) usando estimativas adaptativas de densidade do kernel e pontuações de martingale |
Não |
| ForecastBySsa |
Previsão de dados de séries temporais usando análise de espectro singular (SSA) |
Não |
| DetectSpikeBySsa |
Detetar picos em dados de séries temporais usando análise de espectro singular (SSA) |
Não |
| DetectIidSpike |
Detete picos em dados de séries temporais independentes e distribuídos de forma idêntica (IID) usando estimativas adaptativas de densidade do kernel e pontuações de martingale |
Não |
| DetectEntireAnomalyBySrCnn |
Detete anomalias para todos os dados de entrada usando o algoritmo SRCNN. |
Não |
| DetectSeasonality |
Detete a sazonalidade usando a análise de fourier. |
Não |
| LocalizeRootCause |
Localiza a causa raiz da entrada de séries temporais usando um algoritmo de árvore de decisão. |
Não |
| LocalizeRootCauses |
Localiza as causas raiz da entrada da série tie. |
Não |
Valores em falta
| Transformação |
Definição |
ONNX Exportável |
| IndicateMissingValues |
Crie uma nova coluna de saída booleana, cujo valor é true quando o valor na coluna de entrada está ausente |
Sim |
| ReplaceMissingValues |
Crie uma nova coluna de saída, cujo valor é definido como um valor padrão se o valor estiver ausente da coluna de entrada e, caso contrário, o valor de entrada |
Sim |
Seleção de funcionalidades
| Transformação |
Definição |
ONNX Exportável |
| ApproximatedKernelMap |
Mapeie cada vetor de entrada em um espaço de feição de menor dimensão, onde os produtos internos se aproximam de uma função do kernel, para que os recursos possam ser usados como entradas para os algoritmos lineares |
Não |
| ProjectToPrincipalComponents |
Reduza as dimensões do vetor de recurso de entrada aplicando o algoritmo de Análise de Componentes Principais |
|
| Transformação |
Definição |
ONNX Exportável |
| CalculateFeatureContribution |
Calcular pontuações de contribuição para cada elemento de um vetor de recurso |
Não |
| Transformação |
Definição |
ONNX Exportável |
| Platt(String, String, String) |
Transforma uma pontuação bruta do classificador binário em uma probabilidade de classe usando regressão logística com parâmetros estimados usando os dados de treinamento |
Sim |
| Platt(Double, Double, String) |
Transforma uma pontuação bruta de classificador binário em uma probabilidade de classe usando regressão logística com parâmetros fixos |
Sim |
| Naive |
Transforma uma pontuação bruta de classificador binário em uma probabilidade de classe atribuindo pontuações a compartimentos e calculando a probabilidade com base na distribuição entre os compartimentos |
Sim |
| Isotonic |
Transforma uma pontuação bruta do classificador binário em uma probabilidade de classe atribuindo pontuações a compartimentos, onde a posição dos limites e o tamanho dos compartimentos são estimados usando os dados de treinamento |
Não |
| Transformação |
Definição |
ONNX Exportável |
| ApplyOnnxModel |
Transformar os dados de entrada com um modelo ONNX importado |
Não |
| LoadTensorFlowModel |
Transforme os dados de entrada com um modelo TensorFlow importado |
Não |
| Transformação |
Definição |
ONNX Exportável |
| FilterByCustomPredicate |
Descarta linhas onde um predicado especificado retorna true. |
Não |
| FilterByStatefulCustomPredicate |
Descarta linhas onde um predicado especificado retorna true, mas permite um estado especificado. |
Não |
| CustomMapping |
Transforme colunas existentes em novas colunas com um mapeamento definido pelo usuário |
Não |
| Expression |
Aplicar uma expressão para transformar colunas em novas |
Não |