Gegevenstransformaties worden gebruikt om:
- Gegevens voorbereiden voor modeltraining.
- Pas een geïmporteerd model toe in TensorFlow- of ONNX-indeling.
- Gegevens na het verwerken nadat deze zijn doorgegeven via een model.
De transformaties in deze handleiding retourneren klassen die de IEstimator-interface implementeren. Gegevenstransformaties kunnen aan elkaar worden gekoppeld. Elke transformatie verwacht en produceert gegevens van specifieke typen en indelingen, die zijn opgegeven in de gekoppelde referentiedocumentatie.
Voor sommige gegevenstransformaties moeten trainingsgegevens worden gebruikt om hun parameters te berekenen. Bijvoorbeeld: de NormalizeMeanVariance transformator berekent het gemiddelde en de variantie van de trainingsgegevens tijdens de Fit()
bewerking en gebruikt deze parameters in de Transform()
bewerking.
Voor andere gegevenstransformaties zijn geen trainingsgegevens vereist. Bijvoorbeeld: de ConvertToGrayscale transformatie kan de Transform()
bewerking uitvoeren zonder trainingsgegevens tijdens de Fit()
bewerking te hebben gezien.
Kolomtoewijzing en groepering
Transformeren |
Definitie |
ONNX exporteerbaar |
Concatenate |
Een of meer invoerkolommen samenvoegen in een nieuwe uitvoerkolom |
Ja |
CopyColumns |
Een of meer invoerkolommen kopiëren en de naam ervan wijzigen |
Ja |
DropColumns |
Een of meer invoerkolommen verwijderen |
Ja |
SelectColumns |
Selecteer een of meer kolommen die u wilt behouden uit de invoergegevens |
Ja |
Normalisatie en schalen
Transformeren |
Definitie |
ONNX exporteerbaar |
NormalizeMeanVariance |
Het gemiddelde (van de trainingsgegevens) aftrekken en delen door de variantie (van de trainingsgegevens) |
Ja |
NormalizeLogMeanVariance |
Normaliseren op basis van de logaritme van de trainingsgegevens |
Ja |
NormalizeLpNorm |
Schaal invoervectoren op basis van hun lp-norm, waarbij p 1, 2 of oneindig is. De standaardwaarde l2 (Euclidische afstand) |
Ja |
NormalizeGlobalContrast |
Schaal elke waarde in een rij door het gemiddelde van de rijgegevens af te trekken en te delen door de standaarddeviatie of l2-norm (van de rijgegevens) en te vermenigvuldigen met een configureerbare schaalfactor (standaard 2) |
Ja |
NormalizeBinning |
Wijs de invoerwaarde toe aan een bin-index en deel door het aantal bins om een float-waarde tussen 0 en 1 te produceren. De bin-grenzen worden berekend om de trainingsgegevens gelijkmatig over bins te verdelen |
Ja |
NormalizeSupervisedBinning |
De invoerwaarde toewijzen aan een bin op basis van de correlatie met de labelkolom |
Ja |
NormalizeMinMax |
De invoer schalen op basis van het verschil tussen de minimum- en maximumwaarden in de trainingsgegevens |
Ja |
NormalizeRobustScaling |
Schaal elke waarde met behulp van statistieken die robuust zijn voor uitbijters die de gegevens rond 0 centreren en de gegevens schalen op basis van het kwantielbereik. |
Ja |
Conversies tussen gegevenstypen
Transformeren |
Definitie |
ONNX exporteerbaar |
ConvertType |
Het type invoerkolom converteren naar een nieuw type |
Ja |
MapValue |
Waarden toewijzen aan sleutels (categorieën) op basis van de opgegeven woordenlijst met toewijzingen |
Nee |
MapValueToKey |
Waarden toewijzen aan sleutels (categorieën) door de toewijzing van de invoergegevens te maken |
Ja |
MapKeyToValue |
Sleutels terug converteren naar de oorspronkelijke waarden |
Ja |
MapKeyToVector |
Sleutels terug converteren naar vectoren van oorspronkelijke waarden |
Ja |
MapKeyToBinaryVector |
Sleutels terug converteren naar een binaire vector van oorspronkelijke waarden |
Nee |
Hash |
Hash de waarde in de invoerkolom |
Ja |
Teksttransformaties
Transformeren |
Definitie |
ONNX exporteerbaar |
FeaturizeText |
Een tekstkolom transformeren in een floatmatrix van genormaliseerde ngrammen en aantal tekens |
Nee |
TokenizeIntoWords |
Een of meer tekstkolommen splitsen in afzonderlijke woorden |
Ja |
TokenizeIntoCharactersAsKeys |
Een of meer tekstkolommen splitsen in afzonderlijke tekens zweven over een reeks onderwerpen |
Ja |
NormalizeText |
Hoofdlettergebruik, diakritische tekens, leestekens en getallen verwijderen |
Ja |
ProduceNgrams |
De tekstkolom transformeren in een zak met aantallen ngrammen (reeksen opeenvolgende woorden) |
Ja |
ProduceWordBags |
Tekstkolom transformeren in een zak met aantallen ngramvector |
Ja |
ProduceHashedNgrams |
Tekstkolom transformeren in een vector van gehashte aantal ngram |
Nee |
ProduceHashedWordBags |
Tekstkolom omzetten in een zak met gehashte aantal ngrammen |
Ja |
RemoveDefaultStopWords |
Standaardstopwoorden voor de opgegeven taal verwijderen uit invoerkolommen |
Ja |
RemoveStopWords |
Hiermee verwijdert u opgegeven stopwoorden uit invoerkolommen |
Ja |
LatentDirichletAllocation |
Een document (weergegeven als een vector van floats) transformeren in een vector van floats over een reeks onderwerpen |
Ja |
ApplyWordEmbedding |
Vectoren van teksttokens converteren naar zinsvectoren met behulp van een vooraf getraind model |
Ja |
Transformeren |
Definitie |
ONNX exporteerbaar |
ConvertToGrayscale |
Een afbeelding converteren naar grijswaarden |
Nee |
ConvertToImage |
Een vector van pixels converteren naar ImageDataViewType |
Nee |
ExtractPixels |
Pixels van invoerafbeelding converteren naar een vector van getallen |
Nee |
LoadImages |
Afbeeldingen uit een map laden in het geheugen |
Nee |
LoadRawImageBytes |
Laadt afbeeldingen van onbewerkte bytes in een nieuwe kolom. |
Nee |
ResizeImages |
Het formaat van afbeeldingen wijzigen |
Nee |
DnnFeaturizeImage |
Hiermee past u een vooraf getraind DNN-model (Deep Neural Network) toe om een invoerafbeelding te transformeren in een functievector |
Nee |
Transformeren |
Definitie |
ONNX exporteerbaar |
DetectAnomalyBySrCnn |
Afwijkingen detecteren in de invoertijdreeksgegevens met behulp van het Sr-algoritme (Spectral Residual) |
Nee |
DetectChangePointBySsa |
Wijzigingspunten in tijdreeksgegevens detecteren met behulp van SSA (Singular Spectrum Analysis) |
Nee |
DetectIidChangePoint |
Wijzigingspunten detecteren in onafhankelijke en identiek gedistribueerde tijdreeksgegevens (IID) met behulp van adaptieve kerneldichtheidsschattingen en martingale-scores |
Nee |
ForecastBySsa |
Tijdreeksgegevens voorspellen met behulp van SSA (Singular Spectrum Analysis) |
Nee |
DetectSpikeBySsa |
Pieken in tijdreeksgegevens detecteren met behulp van SSA (Singular Spectrum Analysis) |
Nee |
DetectIidSpike |
Pieken detecteren in onafhankelijke en identiek gedistribueerde tijdreeksgegevens (IID) met behulp van adaptieve kerneldichtheidsschattingen en martingale-scores |
Nee |
DetectEntireAnomalyBySrCnn |
Detecteer afwijkingen voor de volledige invoergegevens met behulp van het SRCNN-algoritme. |
Nee |
DetectSeasonality |
Detecteer seizoensgebondenheid met behulp van fourieranalyse. |
Nee |
LocalizeRootCause |
Lokaliseer de hoofdoorzaak van tijdreeksinvoer met behulp van een beslissingsstructuur-algoritme. |
Nee |
LocalizeRootCauses |
Lokaliseer de hoofdoorzaken van invoer uit de tie-serie. |
Nee |
Ontbrekende waarden
Transformeren |
Definitie |
ONNX exporteerbaar |
IndicateMissingValues |
Maak een nieuwe booleaanse uitvoerkolom, waarvan de waarde waar is wanneer de waarde in de invoerkolom ontbreekt |
Ja |
ReplaceMissingValues |
Maak een nieuwe uitvoerkolom, waarvan de waarde is ingesteld op een standaardwaarde als de waarde ontbreekt in de invoerkolom en anders de invoerwaarde |
Ja |
Functieselectie
Transformeren |
Definitie |
ONNX exporteerbaar |
ApproximatedKernelMap |
Wijs elke invoervector toe aan een lagere dimensionale functieruimte, waarbij interne producten een kernelfunctie benaderen, zodat de functies kunnen worden gebruikt als invoer voor de lineaire algoritmen |
Nee |
ProjectToPrincipalComponents |
De dimensies van de invoerfunctievector verminderen door het algoritme Principal Component Analysis toe te passen |
|
Transformeren |
Definitie |
ONNX exporteerbaar |
Platt(String, String, String) |
Transformeert een onbewerkte score van een binaire classificatie in een klassekans met behulp van logistieke regressie met parameters die worden geschat met behulp van de trainingsgegevens |
Ja |
Platt(Double, Double, String) |
Transformeert een onbewerkte binaire classificatiescore in een klassekans met behulp van logistieke regressie met vaste parameters |
Ja |
Naive |
Transformeert een onbewerkte binaire classificatiescore in een klassekans door scores toe te wijzen aan bins en de kans te berekenen op basis van de verdeling tussen de klassen |
Ja |
Isotonic |
Transformeert een onbewerkte binaire classificatiescore in een klassekans door scores toe te wijzen aan bins, waarbij de positie van grenzen en de grootte van bins wordt geschat met behulp van de trainingsgegevens |
Nee |
Transformeren |
Definitie |
ONNX exporteerbaar |
ApplyOnnxModel |
De invoergegevens transformeren met een geïmporteerd ONNX-model |
Nee |
LoadTensorFlowModel |
De invoergegevens transformeren met een geïmporteerd TensorFlow-model |
Nee |
Transformeren |
Definitie |
ONNX exporteerbaar |
FilterByCustomPredicate |
Rijen verwijderen waarbij een opgegeven predicaat waar retourneert. |
Nee |
FilterByStatefulCustomPredicate |
Hiermee worden rijen verwijderd waarbij een opgegeven predicaat waar retourneert, maar een opgegeven status toestaat. |
Nee |
CustomMapping |
Bestaande kolommen transformeren naar nieuwe kolommen met een door de gebruiker gedefinieerde toewijzing |
Nee |
Expression |
Een expressie toepassen om kolommen te transformeren in nieuwe kolommen |
Nee |