Datentransformationen

Artikel
05/10/2023

Datentransformationen werden für Folgendes verwendet:

Aufbereiten von Daten für das Modelltraining
Anwenden eines importierten Modells im TensorFlow- oder ONNX-Format
Nachverarbeiten von Daten nach dem Durchlaufen eines Modells

Die Transformationen in diesem Handbuch geben Klassen zurück, die die IEstimator-Schnittstelle implementieren. Datentransformationen können miteinander verkettet werden. Jede Transformation erwartet und erzeugt Daten bestimmter Typen und Formate, die in der verknüpften Referenzdokumentation angegeben werden.

Einige Datentransformationen erfordern Trainingsdaten, um ihre Parameter zu berechnen. Beispiel: Der NormalizeMeanVariance-Transformator berechnet den Mittelwert und die Varianz der Trainingsdaten während des Fit()-Vorgangs und verwendet diese Parameter im Transform()-Vorgang.

Andere Datentransformationen erfordern keine Trainingsdaten. Beispiel: Die ConvertToGrayscale-Transformation kann die Transform()-Operation durchführen, ohne während der Fit()-Operation Trainingsdaten gesehen zu haben.

Zuordnung und Gruppierung von Spalten

Transformieren	Definition	Exportierbares ONNX
Concatenate	Verketten einer oder mehrerer Eingabespalten in einer neuen Ausgabespalte	Ja
CopyColumns	Kopieren und Umbenennen einer oder mehrerer Eingabespalten	Ja
DropColumns	Löschen einer oder mehrerer Eingabespalten	Ja
SelectColumns	Auswählen einer oder mehrerer beizubehaltender Spalten aus den Eingabedaten	Ja

Normalisierung und Skalierung

Transformieren	Definition	Exportierbares ONNX
NormalizeMeanVariance	Subtrahieren des Mittelwerts (der Trainingsdaten) und Dividieren durch die Varianz (der Trainingsdaten)	Ja
NormalizeLogMeanVariance	Normalisieren auf Basis des Logarithmus der Trainingsdaten	Ja
NormalizeLpNorm	Skalieren von Eingabevektoren durch ihre LP-Norm, wobei P gleich 1, 2 oder unendlich ist. Der Standardwert ist die L2-Norm (Euklidischer Abstand)	Ja
NormalizeGlobalContrast	Skalieren jedes Werts in einer Zeile durch Subtrahieren des Mittelwerts der Zeilendaten und Division entweder durch die Standardabweichung oder die L2-Norm (der Daten aus der Zeile) und Multiplizieren mit einem konfigurierbaren Skalierungsfaktor (Standard: 2)	Ja
NormalizeBinning	Zuweisen des Eingabewerts zu einem Binindex und Division durch die Anzahl der Bins, um einen Gleitkommawert zwischen 0 und 1 zu erzeugen. Die Bingrenzen werden berechnet, um die Trainingsdaten gleichmäßig auf Bins zu verteilen	Ja
NormalizeSupervisedBinning	Zuweisen des Eingabewerts zu einem Bin basierend auf seiner Korrelation mit der Bezeichnungsspalte	Ja
NormalizeMinMax	Skalieren der Eingabe um den Unterschied zwischen den minimalen und maximalen Werten in den Trainingsdaten	Ja
NormalizeRobustScaling	Skalieren jedes Werts mithilfe von Statistiken, die robust gegenüber Ausreißern sind, welche die Daten um 0 zentrieren und die Daten entsprechend dem Quantilbereich skalieren	Ja

Konvertierungen zwischen Datentypen

Transformieren	Definition	Exportierbares ONNX
ConvertType	Konvertieren des Typs einer Eingabespalte in einen neuen Typ	Ja
MapValue	Zuordnen von Werten zu Schlüsseln (Kategorien) auf Grundlage des angegebenen Zuordnungenwörterbuchs	Nein
MapValueToKey	Zuordnen von Werten zu Schlüsseln (Kategorien) durch Erstellen der Zuordnung aus den Eingabedaten	Ja
MapKeyToValue	Konvertieren von Schlüsseln zurück in ihre ursprünglichen Werte	Ja
MapKeyToVector	Konvertieren von Schlüsseln zurück in Vektoren ursprünglicher Werte	Ja
MapKeyToBinaryVector	Konvertieren von Schlüsseln zurück in einen binären Vektor ursprünglicher Werte	Nein
Hash	Anwenden des Hashalgorithmus auf den Wert in der Eingabespalte	Ja

Texttransformationen

Transformieren	Definition	Exportierbares ONNX
FeaturizeText	Umwandeln einer Textspalte in ein Gleitkommaarray der normalisierten Anzahl von N-Grammen und Char-Grammen	Nein
TokenizeIntoWords	Aufteilen einer oder mehrerer Textspalten in einzelne Wörter	Ja
TokenizeIntoCharactersAsKeys	Aufteilen einer oder mehrerer Textspalten in einzelne Zeichengleitkommazahlen über eine Reihe von Themen	Ja
NormalizeText	Ändern von Groß-/Kleinschreibung, Entfernen von diakritischen Zeichen, Satzzeichen und Zahlen	Ja
ProduceNgrams	Umwandeln einer Textspalte in eine Sammlung mit der Anzahl der N-Gramme (Abfolgen aufeinander folgender Wörter)	Ja
ProduceWordBags	Umwandeln einer Textspalte in einen Vektor der Sammlung mit der Anzahl der N-Gramme	Ja
ProduceHashedNgrams	Umwandeln einer Textspalte in einen Vektor der Anzahl von N-Grammen, für die der Hashwert berechnet wurde	Nein
ProduceHashedWordBags	Umwandeln einer Textspalte in eine Sammlung der Anzahl von N-Grammen, für die der Hashwert berechnet wurde	Ja
RemoveDefaultStopWords	Entfernen der Standardstoppwörter für die angegebene Sprache aus Eingabespalten	Ja
RemoveStopWords	Entfernt die angegebenen Stoppwörter aus Eingabespalten	Ja
LatentDirichletAllocation	Umwandeln eines Dokuments (dargestellt als Vektor von Gleitkommazahlen) in einen Vektor von Gleitkommazahlen über eine Reihe von Themen	Ja
ApplyWordEmbedding	Konvertieren von Vektoren von Texttoken in Satzvektoren mithilfe eines vortrainierten Modells	Ja

Bildtransformationen

Transformieren	Definition	Exportierbares ONNX
ConvertToGrayscale	Konvertieren eines Bilds in Graustufen	Nein
ConvertToImage	Konvertieren eines Vektors von Pixeln in ImageDataViewType	Nein
ExtractPixels	Konvertieren von Pixeln eines Eingabebilds in einen Vektor aus Zahlen	Nein
LoadImages	Laden von Bildern aus einem Ordner in den Arbeitsspeicher	Nein
LoadRawImageBytes	Laden von Bildern unformatierter Bytes in eine neue Spalte	Nein
ResizeImages	Ändern der Größe von Bildern	Nein
DnnFeaturizeImage	Wendet ein vortrainiertes DNN-Modell (Deep Neural Network) an, um ein Eingabebild in einen Merkmalsvektor zu transformieren	Nein

Kategorische Datentransformationen

Transformieren	Definition	Exportierbares ONNX
OneHotEncoding	Konvertieren einer oder mehrerer Textspalten in mit 1-aus-n-Code codierte Vektoren	Ja
OneHotHashEncoding	Konvertieren mindestens einer Textspalte in hashbasierte one-hot-codierte Vektoren	Nein

Zeitreihendaten-Transformationen

Transformieren	Definition	Exportierbares ONNX
DetectAnomalyBySrCnn	Erkennen von Anomalien in den Eingabe-Zeitreihendaten mit dem SR-Algorithmus (Spectral Residual Algorithm)	Nein
DetectChangePointBySsa	Erkennen von Änderungspunkten in Zeitreihendaten mithilfe von SSA (Singular Spectrum Analysis)	Nein
DetectIidChangePoint	Erkennen von Änderungspunkten in unabhängigen und identisch verteilten Zeitreihendaten (IID) mithilfe adaptiver Kerneldichteschätzungen und Martingalbewertungen	Nein
ForecastBySsa	Vorhersagen von Zeitreihendaten mithilfe von SSA (Singular Spectrum Analysis)	Nein
DetectSpikeBySsa	Erkennen von Spitzen in Zeitreihendaten mithilfe von SSA (Singular Spectrum Analysis)	Nein
DetectIidSpike	Erkennen von Spitzen in unabhängigen und identisch verteilten Zeitreihendaten (IID) mithilfe adaptiver Kerneldichteschätzungen und Martingalbewertungen	Nein
DetectEntireAnomalyBySrCnn	Erkennen von Anomalien für die gesamten Eingabedaten mithilfe des SRCNN-Algorithmus	Nein
DetectSeasonality	Erkennen der Saisonabhängigkeit mithilfe einer Fourieranalyse	Nein
LocalizeRootCause	Lokalisieren der Ursache aus der Zeitreiheneingabe mithilfe eines Entscheidungsstrukturalgorithmus	Nein
LocalizeRootCauses	Lokalisieren der Ursachen aus der Eingabe der tie-Serie	Nein

Fehlende Werte

Transformieren	Definition	Exportierbares ONNX
IndicateMissingValues	Erstellen einer neuen booleschen Ausgabespalte, deren Wert „true“ ist, wenn der Wert in der Eingabespalte fehlt	Ja
ReplaceMissingValues	Erstellen einer neuen Ausgabespalte, deren Wert auf einen Standardwert festgelegt ist, wenn der Wert aus der Eingabespalte nicht vorhanden ist, und andernfalls auf den Eingabewert	Ja

Featureauswahl

Transformieren	Definition	Exportierbares ONNX
SelectFeaturesBasedOnCount	Auswählen von Features, deren nicht standardmäßige Werte größer als der Schwellenwert sind	Ja
SelectFeaturesBasedOnMutualInformation	Wählen Sie die Features aus, von denen die Daten in der Bezeichnungsspalte am meisten abhängen	Ja

Merkmalstransformationen

Transformieren	Definition	Exportierbares ONNX
ApproximatedKernelMap	Zuordnen jedes Eingabevektors zu einem Merkmalsraum einer niedrigeren Dimension, wobei die inneren Produkte einer Kernelfunktion nahe kommen, damit die Merkmale als Eingaben für die linearen Algorithmen verwendet werden können	Nein
ProjectToPrincipalComponents	Verringern der Dimensionen des Eingabemerkmalsvektors durch Anwenden des Algorithmus für die Hauptkomponentenanalyse

Erklärbarkeitstransformationen

Transformieren	Definition	Exportierbares ONNX
CalculateFeatureContribution	Berechnen der Beitragsbewertungen für jedes Element eines Merkmalsvektors	Nein

Kalibrierungstransformationen

Transformieren	Definition	Exportierbares ONNX
Platt(String, String, String)	Transformieren der Rohbewertung eines binären Klassifizierers in eine Klassenwahrscheinlichkeit unter Verwendung der logistischen Regression mit anhand der Trainingsdaten geschätzten Parametern	Ja
Platt(Double, Double, String)	Transformieren der Rohbewertung eines binären Klassifizierers in eine Klassenwahrscheinlichkeit unter Verwendung der logistischen Regression mit festen Parametern	Ja
Naive	Transformieren der Rohbewertung eines binären Klassifizierers in eine Klassenwahrscheinlichkeit durch Zuweisen von Bewertungen zu Fächern und Berechnen der Wahrscheinlichkeit basierend auf der Binominalverteilung	Ja
Isotonic	Transformieren der Rohbewertung eines binären Klassifizierers in eine Klassenwahrscheinlichkeit durch Zuweisen von Bewertungen zu Fächern, wobei die Position der Begrenzungen und die Größe der Fächer anhand der Trainingsdaten geschätzt werden	Nein

Deep Learning-Transformationen

Transformieren	Definition	Exportierbares ONNX
ApplyOnnxModel	Transformieren der Eingabedaten mit einem importierten ONNX-Modell	Nein
LoadTensorFlowModel	Transformieren der Eingabedaten mit einem importierten TensorFlow-Modell	Nein

Benutzerdefinierte Transformationen

Transformieren	Definition	Exportierbares ONNX
FilterByCustomPredicate	Löschen von Zeilen, in denen ein angegebenes Prädikat „true“ zurückgibt	Nein
FilterByStatefulCustomPredicate	Löschen von Zeilen, in denen ein angegebenes Prädikat „true“ zurückgibt, aber einen angegebenen Zustand zulässt	Nein
CustomMapping	Transformieren vorhandener Spalten in neue mit einer benutzerdefinierten Zuordnung	Nein
Expression	Anwenden eines Ausdrucks zum Transformieren von Spalten in neue Spalten	Nein

Freigeben über