Le trasformazioni dati vengono usate per:
- Preparare i dati per il training del modello.
- Applicare un modello importato in formato TensorFlow o ONNX.
- Dopo aver passato i dati post-elaborazione tramite un modello.
Le trasformazioni in questa guida restituiscono classi che implementano l'interfaccia IEstimator. Le trasformazioni dati possono essere concatenate. Ogni trasformazione prevede e produce dati di determinati tipi e formati, che vengono specificati nella documentazione di riferimento collegata.
Alcune trasformazioni dati richiedono dati di training per calcolare i relativi parametri. Ad esempio, il trasformatore NormalizeMeanVariance calcola la media e la varianza dei dati di training durante l'operazione Fit() e usa tali parametri nell'operazione Transform().
Altre trasformazioni dati non richiedono dati di training. Ad esempio, la trasformazione ConvertToGrayscale può eseguire l'operazione Transform() senza la necessità di dati di training durante l'operazione Fit().
Mapping e raggruppamento di colonne
| Trasformazione |
Definizione |
Esportabile in ONNX |
| Concatenate |
Concatenare una o più colonne di input in una nuova colonna di output |
Sì |
| CopyColumns |
Copiare e rinominare una o più colonne di input |
Sì |
| DropColumns |
Eliminare una o più colonne di input |
Sì |
| SelectColumns |
Selezionare una o più colonne da mantenere dai dati di input |
Sì |
Normalizzazione e ridimensionamento
| Trasformazione |
Definizione |
Esportabile in ONNX |
| NormalizeMeanVariance |
Sottrarre la media (dei dati di training) e dividere per la varianza (dei dati di training) |
Sì |
| NormalizeLogMeanVariance |
Normalizzare in base al logaritmo dei dati di training |
Sì |
| NormalizeLpNorm |
Ridimensionare i vettori di input in base al relativo valore lp-norm, dove p è 1, 2 o infinito. L'impostazione predefinita è l2-norm (distanza euclidea) |
Sì |
| NormalizeGlobalContrast |
Ridimensionare ogni valore in una riga sottraendo la media dei dati di riga e dividere per la deviazione standard o l2-norm (della riga di dati) e moltiplicare per un fattore di scala configurabile (valore predefinito 2) |
Sì |
| NormalizeBinning |
Assegnare il valore di input a un indice bin e dividere per il numero di bin per produrre un valore float compreso tra 0 e 1. I limiti di bin sono calcolati per distribuire uniformemente i dati di training tra bin |
Sì |
| NormalizeSupervisedBinning |
Assegnare il valore di input a un bin in base alla relativa correlazione con la colonna etichetta |
Sì |
| NormalizeMinMax |
Ridimensionare l'input in base alla differenza tra i valori minimo e massimo nei dati di training |
Sì |
| NormalizeRobustScaling |
Ridimensionare ogni valore usando statistiche affidabili per gli outlier che centrano i dati intorno allo 0 e ridimensionare i dati in base all'intervallo quantile. |
Sì |
Conversioni tra tipi di dati
| Trasformazione |
Definizione |
Esportabile in ONNX |
| ConvertType |
Convertire il tipo di una colonna di input in un nuovo tipo |
Sì |
| MapValue |
Eseguire il mapping dei valori alle chiavi (categorie) in base al dizionario dei mapping fornito |
NO |
| MapValueToKey |
Eseguire il mapping dei valori alle chiavi (categorie) creando il mapping dai dati di input |
Sì |
| MapKeyToValue |
Convertire le chiavi ai valori originali |
Sì |
| MapKeyToVector |
Convertire le chiavi ai vettori dei valori originali |
Sì |
| MapKeyToBinaryVector |
Convertire le chiavi a un vettore binario dei valori originali |
NO |
| Hash |
Eseguire l'hashing del valore nella colonna di input |
Sì |
Trasformazioni di testo
| Trasformazione |
Definizione |
Esportabile in ONNX |
| FeaturizeText |
Trasformare una colonna di testo in una matrice float di conteggi normalizzati di n-grammi e char-grammi |
NO |
| TokenizeIntoWords |
Suddividere una o più colonne di testo in singole parole |
Sì |
| TokenizeIntoCharactersAsKeys |
Suddividere una o più colonne di testo in float di caratteri singoli in un set di argomenti |
Sì |
| NormalizeText |
Cambiare l'uso di maiuscole/minuscole, rimuovere segni diacritici, segni di punteggiatura e numeri |
Sì |
| ProduceNgrams |
Trasformare una colonna di testo in un elenco di conteggi di n-grammi (sequenze di parole consecutive) |
Sì |
| ProduceWordBags |
Trasformare una colonna di testo in un elenco di conteggi del vettore di n-grammi |
Sì |
| ProduceHashedNgrams |
Trasformare una colonna di testo in un vettore di conteggi di n-grammi con hash |
NO |
| ProduceHashedWordBags |
Trasformare una colonna di testo in un elenco di conteggi di n-grammi con hash |
Sì |
| RemoveDefaultStopWords |
Rimuovere parole non significative predefinite per la lingua specificata dalle colonne di input |
Sì |
| RemoveStopWords |
Rimuovere parole non significative specifiche dalle colonne di input |
Sì |
| LatentDirichletAllocation |
Trasformare un documento (rappresentato come vettore di float) in un vettore di float in un set di argomenti |
Sì |
| ApplyWordEmbedding |
Convertire vettori di token di testo in vettori di frasi usando un modello preaddestrato |
Sì |
| Trasformazione |
Definizione |
Esportabile in ONNX |
| ConvertToGrayscale |
Convertire un'immagine in gradazioni di grigio |
NO |
| ConvertToImage |
Convertire un vettore di pixel in ImageDataViewType |
NO |
| ExtractPixels |
Convertire pixel dall'immagine di input in un vettore di numeri |
NO |
| LoadImages |
Caricare immagini da una cartella in memoria |
NO |
| LoadRawImageBytes |
Carica immagini di byte non elaborati in una nuova colonna. |
NO |
| ResizeImages |
Ridimensionamento delle immagini |
NO |
| DnnFeaturizeImage |
Applica un modello DNN (Deep Neural Network) preaddestrato per trasformare un'immagine di input in un vettore di caratteristiche |
NO |
| Trasformazione |
Definizione |
Esportabile in ONNX |
| OneHotEncoding |
Convertire una o più colonne di testo in vettori con codifica one-hot |
Sì |
| OneHotHashEncoding |
Convertire una o più colonne di testo in vettori con codifica one-hot basati su hash |
NO |
| Trasformazione |
Definizione |
Esportabile in ONNX |
| DetectAnomalyBySrCnn |
Rilevare anomalie nei dati delle serie temporali di input usando l'algoritmo SR (Spectral Residual) |
NO |
| DetectChangePointBySsa |
Rilevare punti di modifica nei dati delle serie temporali usando l'analisi SSA (Singular Spectrum Analysis) |
NO |
| DetectIidChangePoint |
Rilevare punti di modifica nei dati delle serie temporali indipendenti e identicamente distribuite (IID) usando stime kernel di densità adattive e punteggi basati su martingala |
NO |
| ForecastBySsa |
Prevedere i dati delle serie temporali usando l'analisi SSA (Singular Spectrum Analysis) |
NO |
| DetectSpikeBySsa |
Rilevare picchi nei dati delle serie temporali usando l'analisi SSA (Singular Spectrum Analysis) |
NO |
| DetectIidSpike |
Rilevare picchi nei dati delle serie temporali indipendenti e identicamente distribuite (IID) usando stime kernel di densità adattive e punteggi basati su martingala |
NO |
| DetectEntireAnomalyBySrCnn |
Rilevare le anomalie per tutti i dati di input usando l'algoritmo SRCNN. |
NO |
| DetectSeasonality |
Rilevare la stagionalità usando l'analisi di Fourier. |
NO |
| LocalizeRootCause |
Localizzare la causa radice dall'input della serie temporale usando un algoritmo ad albero decisionale. |
NO |
| LocalizeRootCauses |
Localizzare le cause radice dall'input della serie di tie. |
NO |
Valori mancanti
| Trasformazione |
Definizione |
Esportabile in ONNX |
| IndicateMissingValues |
Creare una nuova colonna di output booleana, il cui valore è true quando manca il valore nella colonna di input |
Sì |
| ReplaceMissingValues |
Creare una nuova colonna di output, il cui valore è impostato su un valore predefinito se manca il valore dalla colonna di input, e il valore di input in caso contrario |
Sì |
Selezione di funzionalità
| Trasformazione |
Definizione |
Esportabile in ONNX |
| ApproximatedKernelMap |
Eseguire il mapping di ogni vettore di input a uno spazio di caratteristiche dimensionali inferiore, dove i prodotti interni approssimano una funzione kernel, in modo che le caratteristiche possano essere usate come input per gli algoritmi lineari |
NO |
| ProjectToPrincipalComponents |
Ridurre le dimensioni del vettore di caratteristiche di input applicando l'algoritmo PCA (Principal Component Analysis) |
|
| Trasformazione |
Definizione |
Esportabile in ONNX |
| CalculateFeatureContribution |
Calcolare i punteggi dei contributi per ogni elemento di un vettore di caratteristiche |
NO |
| Trasformazione |
Definizione |
Esportabile in ONNX |
| Platt(String, String, String) |
Trasformare un punteggio non elaborato di un classificatore binario in una probabilità di classe usando la regressione logistica con parametri stimati in base ai dati di training |
Sì |
| Platt(Double, Double, String) |
Trasformare un punteggio non elaborato di un classificatore binario in una probabilità di classe usando la regressione logistica con parametri fissi |
Sì |
| Naive |
Trasformare un punteggio non elaborato di un classificatore binario in una probabilità di classe assegnando punteggi ai bin e calcolando la probabilità in base alla distribuzione tra i bin |
Sì |
| Isotonic |
Trasformare un punteggio non elaborato di un classificatore binario in una probabilità di classe assegnando punteggi ai bin, dove la posizione dei limiti e le dimensioni dei bin sono stimate in base ai dati di training |
NO |
| Trasformazione |
Definizione |
Esportabile in ONNX |
| ApplyOnnxModel |
Trasformare i dati di input con un modello ONNX importato |
NO |
| LoadTensorFlowModel |
Trasformare i dati di input con un modello TensorFlow importato |
NO |
| Trasformazione |
Definizione |
Esportabile in ONNX |
| FilterByCustomPredicate |
Rimuove le righe in cui un predicato specificato restituisce true. |
NO |
| FilterByStatefulCustomPredicate |
Rimuove le righe in cui un predicato specificato restituisce true, ma consente uno stato specificato. |
NO |
| CustomMapping |
Trasformare le colonne esistenti in colonne nuove con un mapping definito dall'utente |
NO |
| Expression |
Applicare un'espressione per trasformare le colonne in nuove colonne |
NO |