Gegevenstransformaties

Gegevenstransformaties worden gebruikt om:

  • gegevens voorbereiden voor modeltraining
  • een geïmporteerd model toepassen in TensorFlow- of ONNX-indeling
  • gegevens na het verwerken nadat deze zijn doorgegeven via een model

De transformaties in deze handleiding retourneren klassen die de IEstimator-interface implementeren. Gegevenstransformaties kunnen aan elkaar worden gekoppeld. Elke transformatie verwacht en produceert gegevens van specifieke typen en indelingen, die zijn opgegeven in de gekoppelde referentiedocumentatie.

Voor sommige gegevenstransformaties moeten trainingsgegevens worden gebruikt om hun parameters te berekenen. Bijvoorbeeld: de NormalizeMeanVariance transformator berekent het gemiddelde en de variantie van de trainingsgegevens tijdens de Fit() bewerking en gebruikt deze parameters in de Transform() bewerking.

Voor andere gegevenstransformaties zijn geen trainingsgegevens vereist. Bijvoorbeeld: de ConvertToGrayscale transformatie kan de Transform() bewerking uitvoeren zonder trainingsgegevens tijdens de Fit() bewerking te hebben gezien.

Kolomtoewijzing en groepering

Transformeren Definitie ONNX exporteerbaar
Concatenate Een of meer invoerkolommen samenvoegen in een nieuwe uitvoerkolom Ja
CopyColumns Een of meer invoerkolommen kopiëren en de naam ervan wijzigen Ja
DropColumns Een of meer invoerkolommen verwijderen Ja
SelectColumns Selecteer een of meer kolommen die u wilt behouden uit de invoergegevens Ja

Normalisatie en schalen

Transformeren Definitie ONNX exporteerbaar
NormalizeMeanVariance Het gemiddelde (van de trainingsgegevens) aftrekken en delen door de variantie (van de trainingsgegevens) Ja
NormalizeLogMeanVariance Normaliseren op basis van de logaritme van de trainingsgegevens Ja
NormalizeLpNorm Schaal invoervectoren op basis van hun lp-norm, waarbij p 1, 2 of oneindig is. De standaardwaarde l2 (Euclidische afstand) Ja
NormalizeGlobalContrast Schaal elke waarde in een rij door het gemiddelde van de rijgegevens af te trekken en te delen door de standaarddeviatie of l2-norm (van de rijgegevens) en te vermenigvuldigen met een configureerbare schaalfactor (standaard 2) Ja
NormalizeBinning Wijs de invoerwaarde toe aan een bin-index en deel door het aantal bins om een float-waarde tussen 0 en 1 te produceren. De bin-grenzen worden berekend om de trainingsgegevens gelijkmatig over bins te verdelen Ja
NormalizeSupervisedBinning De invoerwaarde toewijzen aan een bin op basis van de correlatie met de labelkolom Ja
NormalizeMinMax De invoer schalen op basis van het verschil tussen de minimum- en maximumwaarden in de trainingsgegevens Ja
NormalizeRobustScaling Schaal elke waarde met behulp van statistieken die robuust zijn voor uitbijters die de gegevens rond 0 centreren en de gegevens schalen op basis van het kwantielbereik. Ja

Conversies tussen gegevenstypen

Transformeren Definitie ONNX exporteerbaar
ConvertType Het type invoerkolom converteren naar een nieuw type Ja
MapValue Waarden toewijzen aan sleutels (categorieën) op basis van de opgegeven woordenlijst met toewijzingen Nee
MapValueToKey Waarden toewijzen aan sleutels (categorieën) door de toewijzing van de invoergegevens te maken Ja
MapKeyToValue Sleutels terug converteren naar de oorspronkelijke waarden Ja
MapKeyToVector Sleutels terug converteren naar vectoren van oorspronkelijke waarden Ja
MapKeyToBinaryVector Sleutels terug converteren naar een binaire vector van oorspronkelijke waarden Nee
Hash Hash de waarde in de invoerkolom Ja

Teksttransformaties

Transformeren Definitie ONNX exporteerbaar
FeaturizeText Een tekstkolom transformeren in een floatmatrix van genormaliseerde ngrammen en aantal tekens Nee
TokenizeIntoWords Een of meer tekstkolommen splitsen in afzonderlijke woorden Ja
TokenizeIntoCharactersAsKeys Een of meer tekstkolommen splitsen in afzonderlijke tekens zweven over een reeks onderwerpen Ja
NormalizeText Hoofdlettergebruik, diakritische tekens, leestekens en getallen verwijderen Ja
ProduceNgrams De tekstkolom transformeren in een zak met aantallen ngrammen (reeksen opeenvolgende woorden) Ja
ProduceWordBags Tekstkolom transformeren in een zak met aantallen ngramvector Ja
ProduceHashedNgrams Tekstkolom transformeren in een vector van gehashte aantal ngram Nee
ProduceHashedWordBags Tekstkolom omzetten in een zak met gehashte aantal ngrammen Ja
RemoveDefaultStopWords Standaardstopwoorden voor de opgegeven taal verwijderen uit invoerkolommen Ja
RemoveStopWords Hiermee verwijdert u opgegeven stopwoorden uit invoerkolommen Ja
LatentDirichletAllocation Een document (weergegeven als een vector van floats) transformeren in een vector van floats over een reeks onderwerpen Ja
ApplyWordEmbedding Vectoren van teksttokens converteren naar zinsvectoren met behulp van een vooraf getraind model Ja

Afbeeldingstransformaties

Transformeren Definitie ONNX exporteerbaar
ConvertToGrayscale Een afbeelding converteren naar grijswaarden Nee
ConvertToImage Een vector van pixels converteren naar ImageDataViewType Nee
ExtractPixels Pixels van invoerafbeelding converteren naar een vector van getallen Nee
LoadImages Afbeeldingen uit een map laden in het geheugen Nee
LoadRawImageBytes Laadt afbeeldingen van onbewerkte bytes in een nieuwe kolom. Nee
ResizeImages Het formaat van afbeeldingen wijzigen Nee
DnnFeaturizeImage Past een vooraf getraind DNN-model (Deep Neural Network) toe om een invoerafbeelding te transformeren in een functievector Nee

Categorische gegevenstransformaties

Transformeren Definitie ONNX exporteerbaar
OneHotEncoding Een of meer tekstkolommen converteren naar gecodeerde vectoren met één hot Ja
OneHotHashEncoding Een of meer tekstkolommen converteren naar hashgebaseerde en gecodeerde vectoren Nee

Tijdreeksgegevenstransformaties

Transformeren Definitie ONNX exporteerbaar
DetectAnomalyBySrCnn Afwijkingen detecteren in de invoertijdreeksgegevens met behulp van het Sr-algoritme (Spectral Residual) Nee
DetectChangePointBySsa Wijzigingspunten in tijdreeksgegevens detecteren met behulp van SSA (Singular Spectrum Analysis) Nee
DetectIidChangePoint Wijzigingspunten detecteren in onafhankelijke en identiek gedistribueerde tijdreeksgegevens (IID) met behulp van adaptieve kerneldichtheidsschattingen en martingale-scores Nee
ForecastBySsa Tijdreeksgegevens voorspellen met behulp van SSA (Singular Spectrum Analysis) Nee
DetectSpikeBySsa Pieken in tijdreeksgegevens detecteren met behulp van SSA (Singular Spectrum Analysis) Nee
DetectIidSpike Pieken detecteren in onafhankelijke en identiek gedistribueerde tijdreeksgegevens (IID) met behulp van adaptieve kerneldichtheidsschattingen en martingale-scores Nee
DetectEntireAnomalyBySrCnn Detecteer afwijkingen voor de volledige invoergegevens met behulp van het SRCNN-algoritme. Nee
DetectSeasonality Detecteer seizoensgebondenheid met behulp van fourieranalyse. Nee
LocalizeRootCause Lokaliseer de hoofdoorzaak van tijdreeksinvoer met behulp van een beslissingsstructuur-algoritme. Nee
LocalizeRootCauses Lokaliseer de hoofdoorzaken van invoer uit de tie-serie. Nee

Ontbrekende waarden

Transformeren Definitie ONNX exporteerbaar
IndicateMissingValues Maak een nieuwe booleaanse uitvoerkolom, waarvan de waarde waar is wanneer de waarde in de invoerkolom ontbreekt Ja
ReplaceMissingValues Maak een nieuwe uitvoerkolom, waarvan de waarde is ingesteld op een standaardwaarde als de waarde ontbreekt in de invoerkolom en anders de invoerwaarde Ja

Functieselectie

Transformeren Definitie ONNX exporteerbaar
SelectFeaturesBasedOnCount Functies selecteren waarvan de niet-standaardwaarden groter zijn dan een drempelwaarde Ja
SelectFeaturesBasedOnMutualInformation Selecteer de functies waarop de gegevens in de labelkolom het meest afhankelijk zijn Ja

Functietransformaties

Transformeren Definitie ONNX exporteerbaar
ApproximatedKernelMap Wijs elke invoervector toe aan een lagere dimensionale functieruimte, waarbij interne producten een kernelfunctie benaderen, zodat de functies kunnen worden gebruikt als invoer voor de lineaire algoritmen Nee
ProjectToPrincipalComponents De dimensies van de invoerfunctievector verminderen door het algoritme Principal Component Analysis toe te passen

Uitlegbaarheidstransformaties

Transformeren Definitie ONNX exporteerbaar
CalculateFeatureContribution Bijdragescores berekenen voor elk element van een functievector Nee

Kalibratietransformaties

Transformeren Definitie ONNX exporteerbaar
Platt(String, String, String) Transformeert een onbewerkte score van een binaire classificatie in een klassekans met behulp van logistieke regressie met parameters die worden geschat met behulp van de trainingsgegevens Ja
Platt(Double, Double, String) Transformeert een onbewerkte binaire classificatiescore in een klassekans met behulp van logistieke regressie met vaste parameters Ja
Naive Transformeert een onbewerkte binaire classificatiescore in een klassekans door scores toe te wijzen aan bins en de kans te berekenen op basis van de verdeling tussen de klassen Ja
Isotonic Transformeert een onbewerkte binaire classificatiescore in een klassekans door scores toe te wijzen aan bins, waarbij de positie van grenzen en de grootte van bins wordt geschat met behulp van de trainingsgegevens Nee

Deep Learning-transformaties

Transformeren Definitie ONNX exporteerbaar
ApplyOnnxModel De invoergegevens transformeren met een geïmporteerd ONNX-model Nee
LoadTensorFlowModel De invoergegevens transformeren met een geïmporteerd TensorFlow-model Nee

Aangepaste transformaties

Transformeren Definitie ONNX exporteerbaar
FilterByCustomPredicate Rijen verwijderen waarbij een opgegeven predicaat waar retourneert. Nee
FilterByStatefulCustomPredicate Hiermee worden rijen verwijderd waarbij een opgegeven predicaat waar retourneert, maar een opgegeven status toestaat. Nee
CustomMapping Bestaande kolommen transformeren naar nieuwe kolommen met een door de gebruiker gedefinieerde toewijzing Nee
Expression Een expressie toepassen om kolommen te transformeren in nieuwe kolommen Nee