Przekształcenia danych

Przekształcenia danych służą do:

Przygotowywanie danych do trenowania modelu.
Zastosuj zaimportowany model w formacie TensorFlow lub ONNX.
Po przetworzeniu danych po przekazaniu ich przez model.

Przekształcenia w tym przewodniku zwracają klasy implementujące interfejs IEstimator . Przekształcenia danych można łączyć w łańcuchy. Każda transformacja oczekuje i generuje dane określonych typów i formatów, które są podane w powiązanej dokumentacji referencyjnej.

Niektóre przekształcenia danych wymagają danych szkoleniowych w celu obliczenia ich parametrów. Na przykład: NormalizeMeanVariance transformator oblicza średnią i wariancję danych treningowych w trakcie wykonywania operacji Fit() i używa tych parametrów podczas operacji Transform().

Inne przekształcenia danych nie wymagają danych szkoleniowych. Na przykład: transformacja ConvertToGrayscale może wykonać operację Transform() bez wcześniejszego dostępu do jakichkolwiek danych treningowych podczas operacji Fit().

Mapowanie kolumn i grupowanie

Przekształć	Definicja	Możliwość eksportowania ONNX
Concatenate	Połącz jedną lub więcej kolumn wejściowych do nowej kolumny wyjściowej.	Tak
CopyColumns	Kopiowanie i zmienianie nazwy co najmniej jednej kolumny wejściowej	Tak
DropColumns	Upuść co najmniej jedną kolumnę wejściową	Tak
SelectColumns	Wybierz co najmniej jedną kolumnę, aby zachować dane wejściowe	Tak

Normalizacja i skalowanie

Przekształć	Definicja	Możliwość eksportowania ONNX
NormalizeMeanVariance	Odejmowanie średniej (danych treningowych) i podzielenie przez wariancję (danych treningowych)	Tak
NormalizeLogMeanVariance	Normalizacja na podstawie logarytmu danych treningowych	Tak
NormalizeLpNorm	Skaluj wektory wejściowe według ich lp-norm, gdzie p wynosi 1, 2 lub nieskończoność. Wartości domyślne normy l2 (odległość euklidesowa)	Tak
NormalizeGlobalContrast	Skaluj każdą wartość w wierszu, odejmując średnią danych wierszy i dzieląc przez odchylenie standardowe lub l2-normę (dane wierszy) i mnożąc przez konfigurowalny współczynnik skalowania (domyślnie 2)	Tak
NormalizeBinning	Przypisz wartość wejściową do indeksu pojemnika i podziel według liczby pojemników, aby wygenerować wartość zmiennoprzecinkową z zakresu od 0 do 1. Granice pojemnika są obliczane w celu równomiernego rozłożenia danych treningowych między pojemnikami	Tak
NormalizeSupervisedBinning	Przypisywanie wartości wejściowej do pojemnika na podstawie jego korelacji z kolumną etykiety	Tak
NormalizeMinMax	Skalowanie danych wejściowych według różnicy między wartościami minimalnymi i maksymalnymi w danych treningowych	Tak
NormalizeRobustScaling	Skaluj każdą wartość przy użyciu statystyk odpornych na wartości odstające, które wyśrodkują dane wokół zera i skalują dane zgodnie z zakresem kwantylowym.	Tak

Konwersje między typami danych

Przekształcenie	Definicja	Możliwość eksportowania ONNX
ConvertType	Konwertowanie typu kolumny wejściowej na nowy typ	Tak
MapValue	Mapowanie wartości na klucze (kategorie) na podstawie dostarczonego słownika mapowań	Nie.
MapValueToKey	Mapowanie wartości na klucze (kategorie) poprzez tworzenie mapowania na podstawie danych wejściowych	Tak
MapKeyToValue	Konwertowanie kluczy z powrotem na ich oryginalne wartości	Tak
MapKeyToVector	Konwertowanie kluczy z powrotem na wektory oryginalnych wartości	Tak
MapKeyToBinaryVector	Przekonwertuj klucze z powrotem na wektor binarny oryginalnych wartości	Nie.
Hash	Zahaszuj wartość w kolumnie wejściowej	Tak

Przekształcenia tekstu

Przekształć	Definicja	Możliwość eksportowania ONNX
FeaturizeText	Przekształcanie kolumny tekstowej w tablicę zmiennoprzecinkową znormalizowanych liczników n-gramów i znakogramów	Nie.
TokenizeIntoWords	Dzielenie co najmniej jednej kolumny tekstowej na pojedyncze wyrazy	Tak
TokenizeIntoCharactersAsKeys	Podziel jedną lub więcej kolumn tekstowych na pojedyncze znaki rozproszone nad zestawem tematów.	Tak
NormalizeText	Zmień wielkość liter, usuń znaki diakrytyczne, znaki interpunkcyjne i liczby	Tak
ProduceNgrams	Przekształć kolumnę tekstową w zbiór liczebności ngramów (sekwencje kolejnych wyrazów)	Tak
ProduceWordBags	Przekształć kolumnę tekstową w torbę liczników wektora ngramów	Tak
ProduceHashedNgrams	Przekształcanie kolumny tekstowej w wektor liczby zhashowanych ngramów	Nie.
ProduceHashedWordBags	Przekształcanie kolumny tekstowej w torbę skrótów liczb ngramu	Tak
RemoveDefaultStopWords	Usuń domyślne słowa zatrzymania dla określonego języka z kolumn wejściowych	Tak
RemoveStopWords	Usuwa określone słowa stop z kolumn wejściowych	Tak
LatentDirichletAllocation	Przekształć dokument (reprezentowany jako wektor liczb zmiennoprzecinkowych) w wektor liczb zmiennoprzecinkowych w kontekście zestawu tematów	Tak
ApplyWordEmbedding	Konwertowanie wektorów tokenów tekstowych na wektory zdań przy użyciu wstępnie wytrenowanego modelu	Tak

Przekształcenia obrazów

Przekształć	Definicja	Możliwość eksportu ONNX
ConvertToGrayscale	Konwertowanie obrazu na skala szarości	Nie.
ConvertToImage	Konwertowanie wektora pikseli na ImageDataViewType	Nie.
ExtractPixels	Konwertowanie pikseli z obrazu wejściowego na wektor liczb	Nie.
LoadImages	Ładowanie obrazów z folderu do pamięci	Nie.
LoadRawImageBytes	Ładuje obrazy surowych bajtów do nowej kolumny.	Nie.
ResizeImages	Zmienianie rozmiaru obrazów	Nie.
DnnFeaturizeImage	Stosuje wstępnie wytrenowany model głębokiej sieci neuronowej (DNN), aby przekształcić obraz wejściowy w wektor funkcji	Nie.