Trasformazioni di dati

Le trasformazioni dati vengono usate per:

Preparare i dati per l'addestramento del modello.
Applicare un modello importato in formato TensorFlow o ONNX.
Esegui la post-elaborazione dei dati dopo che sono stati elaborati da un modello.

Le trasformazioni in questa guida restituiscono classi che implementano l'interfaccia IEstimator. Le trasformazioni dati possono essere concatenate. Ogni trasformazione prevede e produce dati di determinati tipi e formati, che vengono specificati nella documentazione di riferimento collegata.

Alcune delle trasformazioni di dati richiedono dati di addestramento per calcolare i relativi parametri. Ad esempio, il trasformatore NormalizeMeanVariance calcola la media e la varianza dei dati di training durante l'operazione Fit() e usa tali parametri nell'operazione Transform().

Altre trasformazioni dati non richiedono dati di training. Ad esempio, la trasformazione ConvertToGrayscale può eseguire l'operazione Transform() senza aver mai visto dati di training durante l'operazione Fit().

Mappatura e raggruppamento di colonne

Trasformazione	Definizione	Esportabile in ONNX
Concatenate	Concatenare una o più colonne di input in una nuova colonna di output	Sì
CopyColumns	Copiare e rinominare una o più colonne di input	Sì
DropColumns	Eliminare una o più colonne di input	Sì
SelectColumns	Selezionare una o più colonne da mantenere dai dati di input	Sì

Normalizzazione e ridimensionamento

Trasformazione	Definizione	Esportabile in ONNX
NormalizeMeanVariance	Sottrarre la media (dei dati di training) e dividere per la varianza (dei dati di training)	Sì
NormalizeLogMeanVariance	Normalizzare basandosi sul logaritmo dei dati di addestramento	Sì
NormalizeLpNorm	Ridimensionare i vettori di input in base al relativo valore lp-norm, dove p è 1, 2 o infinito. L'impostazione predefinita è la norma l2 (distanza euclidea)	Sì
NormalizeGlobalContrast	Ridimensionare ogni valore in una riga sottraendo la media dei dati di riga e dividere per la deviazione standard o l2-norm (della riga di dati) e moltiplicare per un fattore di scala configurabile (valore predefinito 2)	Sì
NormalizeBinning	Assegnare il valore di input a un indice bin e dividere per il numero di bin per produrre un valore float compreso tra 0 e 1. I limiti di bin sono calcolati per distribuire uniformemente i dati di addestramento fra i bin	Sì
NormalizeSupervisedBinning	Assegnare il valore di input a un bin in base alla relativa correlazione con la colonna delle etichette	Sì
NormalizeMinMax	Ridimensionare l'input in base alla differenza tra i valori minimo e massimo nei dati di training	Sì
NormalizeRobustScaling	Ridimensionare ogni valore usando statistiche robuste rispetto agli outlier che centrano i dati attorno allo 0 e scalano i dati in base all'intervallo quantile.	Sì

Conversioni tra tipi di dati

Trasformazione	Definizione	Esportabile in ONNX
ConvertType	Convertire il tipo di una colonna di input in un nuovo tipo	Sì
MapValue	Associare i valori alle chiavi (categorie) in base al dizionario delle mappature fornito	NO
MapValueToKey	Associare i valori alle chiavi (categorie) creando la mappatura a partire dai dati di input	Sì
MapKeyToValue	Convertire le chiavi indietro ai valori originali	Sì
MapKeyToVector	Convertire le chiavi in vettori dei valori originali	Sì
MapKeyToBinaryVector	Convertire le chiavi in un vettore binario dei valori originali	NO
Hash	Eseguire l'hashing del valore nella colonna di input	Sì

Trasformazioni di testo

Trasformazione	Definizione	Esportabile in ONNX
FeaturizeText	Trasformare una colonna di testo in una matrice float di conteggi normalizzati di n-grammi e char-grammi	NO
TokenizeIntoWords	Suddividere una o più colonne di testo in singole parole	Sì
TokenizeIntoCharactersAsKeys	Suddividere una o più colonne di testo in float di caratteri singoli in un set di argomenti	Sì
NormalizeText	Cambiare l'uso di maiuscole/minuscole, rimuovere segni diacritici, segni di punteggiatura e numeri	Sì
ProduceNgrams	Trasformare una colonna di testo in una raccolta di conteggi di n-grammi (sequenze di parole consecutive)	Sì
ProduceWordBags	Trasformare una colonna di testo in un elenco di conteggi del vettore di n-grammi	Sì
ProduceHashedNgrams	Trasformare una colonna di testo in un vettore di conteggi di n-grammi con hash	NO
ProduceHashedWordBags	Trasformare una colonna di testo in un insieme di conteggi di n-grammi con hash	Sì
RemoveDefaultStopWords	Rimuovere parole non significative predefinite per la lingua specificata dalle colonne di input	Sì
RemoveStopWords	Rimuove le stop word specificate dalle colonne di input	Sì
LatentDirichletAllocation	Trasformare un documento (rappresentato come vettore di float) in un vettore di float in riferimento a un insieme di argomenti	Sì
ApplyWordEmbedding	Convertire vettori di token di testo in vettori di frasi usando un modello preaddestrato	Sì

Trasformazioni di immagini

Trasformazione	Definizione	Esportabile in ONNX
ConvertToGrayscale	Convertire un'immagine in gradazioni di grigio	NO
ConvertToImage	Convertire un vettore di pixel in ImageDataViewType	NO
ExtractPixels	Convertire pixel dall'immagine di input in un vettore di numeri	NO
LoadImages	Caricare immagini da una cartella in memoria	NO
LoadRawImageBytes	Carica immagini di byte non elaborati in una nuova colonna.	NO
ResizeImages	Ridimensionamento delle immagini	NO
DnnFeaturizeImage	Applica un modello DNN (Deep Neural Network) preaddestrato per trasformare un'immagine di input in un vettore di caratteristiche	NO

Trasformazioni dati categoriche

Trasformazione	Definizione	Esportabile in ONNX
OneHotEncoding	Convertire una o più colonne di testo in vettori con codifica one-hot	Sì
OneHotHashEncoding	Convertire una o più colonne di testo in vettori one-hot codificati su hash	NO

Trasformazioni dati di serie temporali

Trasformazione	Definizione	Esportabile in ONNX
DetectAnomalyBySrCnn	Rilevare anomalie nei dati delle serie temporali di input usando l'algoritmo SR (Spectral Residual)	NO
DetectChangePointBySsa	Rilevare punti di modifica nei dati delle serie temporali usando l'analisi SSA (Singular Spectrum Analysis)	NO
DetectIidChangePoint	Rilevare punti di modifica nei dati delle serie temporali indipendenti e identicamente distribuite (IID) usando stime kernel di densità adattive e punteggi basati su martingala	NO
ForecastBySsa	Prevedere i dati delle serie temporali usando l'analisi SSA (Singular Spectrum Analysis)	NO
DetectSpikeBySsa	Rilevare picchi nei dati delle serie temporali usando l'analisi SSA (Singular Spectrum Analysis)	NO
DetectIidSpike	Rilevare picchi nei dati delle serie temporali indipendenti e identicamente distribuite (IID) usando stime di densità kernel adattive e punteggi martingala	NO
DetectEntireAnomalyBySrCnn	Rilevare le anomalie per tutti i dati di input usando l'algoritmo SRCNN.	NO
DetectSeasonality	Rilevare la stagionalità usando l'analisi di Fourier.	NO
LocalizeRootCause	Localizza la causa principale dall'input della serie temporale utilizzando un algoritmo ad albero delle decisioni.	NO
LocalizeRootCauses	Individua le cause principali dall'input della serie temporale.	NO

Valori mancanti

Trasformazione	Definizione	Esportabile in ONNX
IndicateMissingValues	Creare una nuova colonna di output booleana, il cui valore è vero quando è assente un valore nella colonna di input.	Sì
ReplaceMissingValues	Creare una nuova colonna di output, il cui valore è impostato su un valore predefinito se manca il valore dalla colonna di input, e il valore di input in caso contrario	Sì

Selezione di funzionalità

Trasformazione	Definizione	Esportabile in ONNX
SelectFeaturesBasedOnCount	Selezionare le caratteristiche i cui valori non predefiniti sono superiori a una soglia	Sì
SelectFeaturesBasedOnMutualInformation	Selezionare le caratteristiche da cui i dati nella colonna etichetta dipendono maggiormente	Sì

Trasformazioni di caratteristiche

Trasformazione	Definizione	Esportabile in ONNX
ApproximatedKernelMap	Eseguire il mapping di ogni vettore di input a uno spazio di caratteristiche dimensionali inferiore, dove i prodotti interni approssimano una funzione kernel, in modo che le caratteristiche possano essere usate come input per gli algoritmi lineari	NO
ProjectToPrincipalComponents	Ridurre le dimensioni del vettore di caratteristiche di input applicando l'algoritmo PCA (Principal Component Analysis)

Trasformazioni di interpretabilità

Trasformazione	Definizione	Esportabile in ONNX
CalculateFeatureContribution	Calcolare i punteggi dei contributi per ogni elemento di un vettore di caratteristiche	NO

Trasformazioni di calibrazione

Trasformazione	Definizione	Esportabile in ONNX
Platt(String, String, String)	Trasforma un punteggio grezzo di un classificatore binario in una probabilità di classe usando la regressione logistica con parametri stimati in base ai dati di addestramento.	Sì
Platt(Double, Double, String)	Trasformare un punteggio non elaborato di un classificatore binario in una probabilità di classe usando la regressione logistica con parametri fissi	Sì
Naive	Trasformare un punteggio non elaborato di un classificatore binario in una probabilità di classe assegnando punteggi ai bin e calcolando la probabilità in base alla distribuzione tra i bin	Sì
Isotonic	Trasforma un punteggio grezzo di un classificatore binario in una probabilità di classe assegnando i punteggi ai bin, dove la posizione dei confini e le dimensioni dei bin sono stimate utilizzando i dati di addestramento.	NO

Trasformazioni di Deep Learning

Trasformazione	Definizione	Esportabile in ONNX
ApplyOnnxModel	Trasformare i dati di input con un modello ONNX importato	NO
LoadTensorFlowModel	Trasformare i dati di input con un modello TensorFlow importato	NO

Trasformazioni personalizzate

Trasformazione	Definizione	Esportabile in ONNX
FilterByCustomPredicate	Rimuove le righe in cui un predicato specificato restituisce true.	NO
FilterByStatefulCustomPredicate	Rimuove le righe in cui un predicato specificato restituisce true, ma consente uno stato specificato.	NO
CustomMapping	Trasformare le colonne esistenti in colonne nuove con un mapping definito dall'utente	NO
Expression	Applicare un'espressione per trasformare le colonne in nuove colonne	NO

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2026-02-24