Transformations de données

Les transformations de données sont utilisées pour :

Préparez les données pour l’entraînement du modèle.
Appliquez un modèle importé au format TensorFlow ou ONNX.
Effectuer le post-traitement des données après qu'elles ont été passées par un modèle.

Les transformations abordées dans ce guide retournent des classes qui implémentent l’interface IEstimator. Les transformations de données peuvent s’enchaîner. Chacune transformation attend et génère des données de type et de format spécifiques, indiqués dans le lien de la documentation de référence.

Certaines transformations de données ont besoin de données d’apprentissage pour calculer leurs paramètres. Par exemple, le transformateur NormalizeMeanVariance calcule la moyenne et la variance des données d’apprentissage au cours de l’opération Fit() et utilise ces paramètres dans l’opération Transform().

D’autres transformations de données n’exigent pas les données d’apprentissage. Par exemple, la transformation ConvertToGrayscale peut effectuer l’opération Transform() sans avoir vu aucune donnée d'entraînement durant l’opération Fit().

Mappage et regroupement de colonnes

Transformation	Définition	Exportable en ONNX
Concatenate	Concaténer une ou plusieurs colonnes d’entrée en une nouvelle colonne de sortie	Oui
CopyColumns	Copier et renommer une ou plusieurs colonnes d’entrée	Oui
DropColumns	Supprimer une ou plusieurs colonnes d’entrée	Oui
SelectColumns	Sélectionner une ou plusieurs colonnes à exclure des données d’entrée	Oui

Normalisation et mise à l'échelle

Transformation	Définition	Exportable vers ONNX
NormalizeMeanVariance	Soustraire la moyenne (des données d’apprentissage) et diviser par la variance (des données d’apprentissage)	Oui
NormalizeLogMeanVariance	Normaliser selon le logarithme des données d’apprentissage	Oui
NormalizeLpNorm	Effectuer la mise à l'échelle des vecteurs d’entrée selon leur norme Lp, où p est égal à 1, 2 ou l’infini. avec L² (distance euclidienne) comme valeur par défaut	Oui
NormalizeGlobalContrast	Pondérer chacune des valeurs d’une ligne en soustrayant la moyenne des données de la ligne, diviser par l’écart type ou la norme L² (des données de la ligne) et multiplier par un facteur de proportionnalité configurable (par défaut, 2)	Oui
NormalizeBinning	Affecter à la valeur d’entrée un index d’emplacement (bin) et diviser par le nombre d’emplacements pour produire une valeur float comprise entre 0 et 1, Les limites de compartiments sont calculées pour distribuer uniformément les données d’apprentissage dans les compartiments.	Oui
NormalizeSupervisedBinning	Affecter la valeur d’entrée à une classe en fonction de sa corrélation avec la colonne d’étiquettes.	Oui
NormalizeMinMax	Pondérer l’entrée selon la différence entre les valeurs minimales et les valeurs maximales des données d’apprentissage	Oui
NormalizeRobustScaling	Mettez à l’échelle chaque valeur en utilisant des statistiques robustes pour les valeurs hors norme qui centrent les données autour de 0 et mettez à l’échelle les données en fonction de la plage de quantiles.	Oui

Conversions entre types de données

Transformez	Définition	Exportable vers ONNX
ConvertType	Convertir le type d’une colonne d’entrée en un nouveau type	Oui
MapValue	Mapper les valeurs sur les clés (catégories) en fonction du dictionnaire de mappages fourni	Non
MapValueToKey	Mapper les valeurs sur les clés (catégories) en créant le mappage à partir des données d’entrée	Oui
MapKeyToValue	Reconvertir les clés dans leurs valeurs d’origine	Oui
MapKeyToVector	Reconvertir les clés en vecteurs de valeurs d’origine	Oui
MapKeyToBinaryVector	Reconvertir les clés en un vecteur binaire de valeurs d’origine	Non
Hash	Hacher la valeur dans la colonne d’entrée	Oui

Transformations textuelles

Transformez	Définition	Exportable vers ONNX
FeaturizeText	Transformer une colonne de texte en un tableau float de comptes normalisés de n-grammes et de caractères-grammes	Non
TokenizeIntoWords	Fractionner une ou plusieurs colonnes de texte en mots	Oui
TokenizeIntoCharactersAsKeys	Fractionner une ou plusieurs colonnes de texte en caractères individuels sur un ensemble de sujets.	Oui
NormalizeText	Modifier la casse, supprimer les signes diacritiques, les signes de ponctuation et les chiffres	Oui
ProduceNgrams	Transformer une colonne de texte en un sac de nombres de n-grammes (séquences de mots consécutifs)	Oui
ProduceWordBags	Transformer une colonne de texte en un sac de nombres de vecteur de n-grammes	Oui
ProduceHashedNgrams	Transformer la colonne de texte en un vecteur de nombres de n-grammes hachés	Non
ProduceHashedWordBags	Transformer la colonne de texte en un sac de nombres de n-grammes hachés	Oui
RemoveDefaultStopWords	Supprimer les mots vides par défaut des colonnes d’entrée pour la langue spécifiée	Oui
RemoveStopWords	Supprimer les mots vides spécifiés des colonnes d’entrée	Oui
LatentDirichletAllocation	Transformer un document (représenté sous la forme d’un vecteur de flottants) en un vecteur de flottants sur un ensemble de sujets	Oui
ApplyWordEmbedding	Convertir des vecteurs de jetons de texte en vecteurs de phrase à l’aide d’un modèle préentraîné	Oui

Transformations d’images

Transformez	Définition	Exportable vers ONNX
ConvertToGrayscale	Convertir une image en nuances de gris	Non
ConvertToImage	Convertir un vecteur de pixels en ImageDataViewType	Non
ExtractPixels	Convertir les pixels d’une image d’entrée en un vecteur de nombres	Non
LoadImages	Charger les images d’un dossier en mémoire	Non
LoadRawImageBytes	Charge des images d’octets bruts dans une nouvelle colonne.	Non
ResizeImages	Redimensionner les images	Non
DnnFeaturizeImage	Applique un modèle de réseau neuronal profond (DNN) préentraîné pour transformer une image d’entrée en vecteur de caractéristique	Non