Datentransformationen

Datentransformationen werden für Folgendes verwendet:

  • Aufbereiten von Daten für das Modelltraining
  • Anwenden eines importierten Modells im TensorFlow- oder ONNX-Format
  • Nachverarbeiten von Daten nach dem Durchlaufen eines Modells

Die Transformationen in diesem Handbuch geben Klassen zurück, die die IEstimator-Schnittstelle implementieren. Datentransformationen können miteinander verkettet werden. Jede Transformation erwartet und erzeugt Daten bestimmter Typen und Formate, die in der verknüpften Referenzdokumentation angegeben werden.

Einige Datentransformationen erfordern Trainingsdaten, um ihre Parameter zu berechnen. Beispiel: Der NormalizeMeanVariance-Transformator berechnet den Mittelwert und die Varianz der Trainingsdaten während des Fit()-Vorgangs und verwendet diese Parameter im Transform()-Vorgang.

Andere Datentransformationen erfordern keine Trainingsdaten. Beispiel: Die ConvertToGrayscale-Transformation kann die Transform()-Operation durchführen, ohne während der Fit()-Operation Trainingsdaten gesehen zu haben.

Zuordnung und Gruppierung von Spalten

Transformieren Definition Exportierbares ONNX
Concatenate Verketten einer oder mehrerer Eingabespalten in einer neuen Ausgabespalte Ja
CopyColumns Kopieren und Umbenennen einer oder mehrerer Eingabespalten Ja
DropColumns Löschen einer oder mehrerer Eingabespalten Ja
SelectColumns Auswählen einer oder mehrerer beizubehaltender Spalten aus den Eingabedaten Ja

Normalisierung und Skalierung

Transformieren Definition Exportierbares ONNX
NormalizeMeanVariance Subtrahieren des Mittelwerts (der Trainingsdaten) und Dividieren durch die Varianz (der Trainingsdaten) Ja
NormalizeLogMeanVariance Normalisieren auf Basis des Logarithmus der Trainingsdaten Ja
NormalizeLpNorm Skalieren von Eingabevektoren durch ihre LP-Norm, wobei P gleich 1, 2 oder unendlich ist. Der Standardwert ist die L2-Norm (Euklidischer Abstand) Ja
NormalizeGlobalContrast Skalieren jedes Werts in einer Zeile durch Subtrahieren des Mittelwerts der Zeilendaten und Division entweder durch die Standardabweichung oder die L2-Norm (der Daten aus der Zeile) und Multiplizieren mit einem konfigurierbaren Skalierungsfaktor (Standard: 2) Ja
NormalizeBinning Zuweisen des Eingabewerts zu einem Binindex und Division durch die Anzahl der Bins, um einen Gleitkommawert zwischen 0 und 1 zu erzeugen. Die Bingrenzen werden berechnet, um die Trainingsdaten gleichmäßig auf Bins zu verteilen Ja
NormalizeSupervisedBinning Zuweisen des Eingabewerts zu einem Bin basierend auf seiner Korrelation mit der Bezeichnungsspalte Ja
NormalizeMinMax Skalieren der Eingabe um den Unterschied zwischen den minimalen und maximalen Werten in den Trainingsdaten Ja
NormalizeRobustScaling Skalieren jedes Werts mithilfe von Statistiken, die robust gegenüber Ausreißern sind, welche die Daten um 0 zentrieren und die Daten entsprechend dem Quantilbereich skalieren Ja

Konvertierungen zwischen Datentypen

Transformieren Definition Exportierbares ONNX
ConvertType Konvertieren des Typs einer Eingabespalte in einen neuen Typ Ja
MapValue Zuordnen von Werten zu Schlüsseln (Kategorien) auf Grundlage des angegebenen Zuordnungenwörterbuchs Nein
MapValueToKey Zuordnen von Werten zu Schlüsseln (Kategorien) durch Erstellen der Zuordnung aus den Eingabedaten Ja
MapKeyToValue Konvertieren von Schlüsseln zurück in ihre ursprünglichen Werte Ja
MapKeyToVector Konvertieren von Schlüsseln zurück in Vektoren ursprünglicher Werte Ja
MapKeyToBinaryVector Konvertieren von Schlüsseln zurück in einen binären Vektor ursprünglicher Werte Nein
Hash Anwenden des Hashalgorithmus auf den Wert in der Eingabespalte Ja

Texttransformationen

Transformieren Definition Exportierbares ONNX
FeaturizeText Umwandeln einer Textspalte in ein Gleitkommaarray der normalisierten Anzahl von N-Grammen und Char-Grammen Nein
TokenizeIntoWords Aufteilen einer oder mehrerer Textspalten in einzelne Wörter Ja
TokenizeIntoCharactersAsKeys Aufteilen einer oder mehrerer Textspalten in einzelne Zeichengleitkommazahlen über eine Reihe von Themen Ja
NormalizeText Ändern von Groß-/Kleinschreibung, Entfernen von diakritischen Zeichen, Satzzeichen und Zahlen Ja
ProduceNgrams Umwandeln einer Textspalte in eine Sammlung mit der Anzahl der N-Gramme (Abfolgen aufeinander folgender Wörter) Ja
ProduceWordBags Umwandeln einer Textspalte in einen Vektor der Sammlung mit der Anzahl der N-Gramme Ja
ProduceHashedNgrams Umwandeln einer Textspalte in einen Vektor der Anzahl von N-Grammen, für die der Hashwert berechnet wurde Nein
ProduceHashedWordBags Umwandeln einer Textspalte in eine Sammlung der Anzahl von N-Grammen, für die der Hashwert berechnet wurde Ja
RemoveDefaultStopWords Entfernen der Standardstoppwörter für die angegebene Sprache aus Eingabespalten Ja
RemoveStopWords Entfernt die angegebenen Stoppwörter aus Eingabespalten Ja
LatentDirichletAllocation Umwandeln eines Dokuments (dargestellt als Vektor von Gleitkommazahlen) in einen Vektor von Gleitkommazahlen über eine Reihe von Themen Ja
ApplyWordEmbedding Konvertieren von Vektoren von Texttoken in Satzvektoren mithilfe eines vortrainierten Modells Ja

Bildtransformationen

Transformieren Definition Exportierbares ONNX
ConvertToGrayscale Konvertieren eines Bilds in Graustufen Nein
ConvertToImage Konvertieren eines Vektors von Pixeln in ImageDataViewType Nein
ExtractPixels Konvertieren von Pixeln eines Eingabebilds in einen Vektor aus Zahlen Nein
LoadImages Laden von Bildern aus einem Ordner in den Arbeitsspeicher Nein
LoadRawImageBytes Laden von Bildern unformatierter Bytes in eine neue Spalte Nein
ResizeImages Ändern der Größe von Bildern Nein
DnnFeaturizeImage Wendet ein vortrainiertes DNN-Modell (Deep Neural Network) an, um ein Eingabebild in einen Merkmalsvektor zu transformieren Nein

Kategorische Datentransformationen

Transformieren Definition Exportierbares ONNX
OneHotEncoding Konvertieren einer oder mehrerer Textspalten in mit 1-aus-n-Code codierte Vektoren Ja
OneHotHashEncoding Konvertieren mindestens einer Textspalte in hashbasierte one-hot-codierte Vektoren Nein

Zeitreihendaten-Transformationen

Transformieren Definition Exportierbares ONNX
DetectAnomalyBySrCnn Erkennen von Anomalien in den Eingabe-Zeitreihendaten mit dem SR-Algorithmus (Spectral Residual Algorithm) Nein
DetectChangePointBySsa Erkennen von Änderungspunkten in Zeitreihendaten mithilfe von SSA (Singular Spectrum Analysis) Nein
DetectIidChangePoint Erkennen von Änderungspunkten in unabhängigen und identisch verteilten Zeitreihendaten (IID) mithilfe adaptiver Kerneldichteschätzungen und Martingalbewertungen Nein
ForecastBySsa Vorhersagen von Zeitreihendaten mithilfe von SSA (Singular Spectrum Analysis) Nein
DetectSpikeBySsa Erkennen von Spitzen in Zeitreihendaten mithilfe von SSA (Singular Spectrum Analysis) Nein
DetectIidSpike Erkennen von Spitzen in unabhängigen und identisch verteilten Zeitreihendaten (IID) mithilfe adaptiver Kerneldichteschätzungen und Martingalbewertungen Nein
DetectEntireAnomalyBySrCnn Erkennen von Anomalien für die gesamten Eingabedaten mithilfe des SRCNN-Algorithmus Nein
DetectSeasonality Erkennen der Saisonabhängigkeit mithilfe einer Fourieranalyse Nein
LocalizeRootCause Lokalisieren der Ursache aus der Zeitreiheneingabe mithilfe eines Entscheidungsstrukturalgorithmus Nein
LocalizeRootCauses Lokalisieren der Ursachen aus der Eingabe der tie-Serie Nein

Fehlende Werte

Transformieren Definition Exportierbares ONNX
IndicateMissingValues Erstellen einer neuen booleschen Ausgabespalte, deren Wert „true“ ist, wenn der Wert in der Eingabespalte fehlt Ja
ReplaceMissingValues Erstellen einer neuen Ausgabespalte, deren Wert auf einen Standardwert festgelegt ist, wenn der Wert aus der Eingabespalte nicht vorhanden ist, und andernfalls auf den Eingabewert Ja

Featureauswahl

Transformieren Definition Exportierbares ONNX
SelectFeaturesBasedOnCount Auswählen von Features, deren nicht standardmäßige Werte größer als der Schwellenwert sind Ja
SelectFeaturesBasedOnMutualInformation Wählen Sie die Features aus, von denen die Daten in der Bezeichnungsspalte am meisten abhängen Ja

Merkmalstransformationen

Transformieren Definition Exportierbares ONNX
ApproximatedKernelMap Zuordnen jedes Eingabevektors zu einem Merkmalsraum einer niedrigeren Dimension, wobei die inneren Produkte einer Kernelfunktion nahe kommen, damit die Merkmale als Eingaben für die linearen Algorithmen verwendet werden können Nein
ProjectToPrincipalComponents Verringern der Dimensionen des Eingabemerkmalsvektors durch Anwenden des Algorithmus für die Hauptkomponentenanalyse

Erklärbarkeitstransformationen

Transformieren Definition Exportierbares ONNX
CalculateFeatureContribution Berechnen der Beitragsbewertungen für jedes Element eines Merkmalsvektors Nein

Kalibrierungstransformationen

Transformieren Definition Exportierbares ONNX
Platt(String, String, String) Transformieren der Rohbewertung eines binären Klassifizierers in eine Klassenwahrscheinlichkeit unter Verwendung der logistischen Regression mit anhand der Trainingsdaten geschätzten Parametern Ja
Platt(Double, Double, String) Transformieren der Rohbewertung eines binären Klassifizierers in eine Klassenwahrscheinlichkeit unter Verwendung der logistischen Regression mit festen Parametern Ja
Naive Transformieren der Rohbewertung eines binären Klassifizierers in eine Klassenwahrscheinlichkeit durch Zuweisen von Bewertungen zu Fächern und Berechnen der Wahrscheinlichkeit basierend auf der Binominalverteilung Ja
Isotonic Transformieren der Rohbewertung eines binären Klassifizierers in eine Klassenwahrscheinlichkeit durch Zuweisen von Bewertungen zu Fächern, wobei die Position der Begrenzungen und die Größe der Fächer anhand der Trainingsdaten geschätzt werden Nein

Deep Learning-Transformationen

Transformieren Definition Exportierbares ONNX
ApplyOnnxModel Transformieren der Eingabedaten mit einem importierten ONNX-Modell Nein
LoadTensorFlowModel Transformieren der Eingabedaten mit einem importierten TensorFlow-Modell Nein

Benutzerdefinierte Transformationen

Transformieren Definition Exportierbares ONNX
FilterByCustomPredicate Löschen von Zeilen, in denen ein angegebenes Prädikat „true“ zurückgibt Nein
FilterByStatefulCustomPredicate Löschen von Zeilen, in denen ein angegebenes Prädikat „true“ zurückgibt, aber einen angegebenen Zustand zulässt Nein
CustomMapping Transformieren vorhandener Spalten in neue mit einer benutzerdefinierten Zuordnung Nein
Expression Anwenden eines Ausdrucks zum Transformieren von Spalten in neue Spalten Nein