Udostępnij za pośrednictwem


Przekształcenia danych

Przekształcenia danych służą do:

  • Przygotowywanie danych do trenowania modelu.
  • Zastosuj zaimportowany model w formacie TensorFlow lub ONNX.
  • Po przetworzeniu danych po przekazaniu ich przez model.

Przekształcenia w tym przewodniku zwracają klasy implementujące interfejs IEstimator . Przekształcenia danych można łączyć w łańcuchy. Każda transformacja oczekuje i generuje dane określonych typów i formatów, które są podane w powiązanej dokumentacji referencyjnej.

Niektóre przekształcenia danych wymagają danych szkoleniowych w celu obliczenia ich parametrów. Na przykład: NormalizeMeanVariance transformator oblicza średnią i wariancję danych treningowych w trakcie wykonywania operacji Fit() i używa tych parametrów podczas operacji Transform().

Inne przekształcenia danych nie wymagają danych szkoleniowych. Na przykład: transformacja ConvertToGrayscale może wykonać operację Transform() bez wcześniejszego dostępu do jakichkolwiek danych treningowych podczas operacji Fit().

Mapowanie kolumn i grupowanie

Przekształć Definicja Możliwość eksportowania ONNX
Concatenate Połącz jedną lub więcej kolumn wejściowych do nowej kolumny wyjściowej. Tak
CopyColumns Kopiowanie i zmienianie nazwy co najmniej jednej kolumny wejściowej Tak
DropColumns Upuść co najmniej jedną kolumnę wejściową Tak
SelectColumns Wybierz co najmniej jedną kolumnę, aby zachować dane wejściowe Tak

Normalizacja i skalowanie

Przekształć Definicja Możliwość eksportowania ONNX
NormalizeMeanVariance Odejmowanie średniej (danych treningowych) i podzielenie przez wariancję (danych treningowych) Tak
NormalizeLogMeanVariance Normalizacja na podstawie logarytmu danych treningowych Tak
NormalizeLpNorm Skaluj wektory wejściowe według ich lp-norm, gdzie p wynosi 1, 2 lub nieskończoność. Wartości domyślne normy l2 (odległość euklidesowa) Tak
NormalizeGlobalContrast Skaluj każdą wartość w wierszu, odejmując średnią danych wierszy i dzieląc przez odchylenie standardowe lub l2-normę (dane wierszy) i mnożąc przez konfigurowalny współczynnik skalowania (domyślnie 2) Tak
NormalizeBinning Przypisz wartość wejściową do indeksu pojemnika i podziel według liczby pojemników, aby wygenerować wartość zmiennoprzecinkową z zakresu od 0 do 1. Granice pojemnika są obliczane w celu równomiernego rozłożenia danych treningowych między pojemnikami Tak
NormalizeSupervisedBinning Przypisywanie wartości wejściowej do pojemnika na podstawie jego korelacji z kolumną etykiety Tak
NormalizeMinMax Skalowanie danych wejściowych według różnicy między wartościami minimalnymi i maksymalnymi w danych treningowych Tak
NormalizeRobustScaling Skaluj każdą wartość przy użyciu statystyk odpornych na wartości odstające, które wyśrodkują dane wokół zera i skalują dane zgodnie z zakresem kwantylowym. Tak

Konwersje między typami danych

Przekształcenie Definicja Możliwość eksportowania ONNX
ConvertType Konwertowanie typu kolumny wejściowej na nowy typ Tak
MapValue Mapowanie wartości na klucze (kategorie) na podstawie dostarczonego słownika mapowań Nie.
MapValueToKey Mapowanie wartości na klucze (kategorie) poprzez tworzenie mapowania na podstawie danych wejściowych Tak
MapKeyToValue Konwertowanie kluczy z powrotem na ich oryginalne wartości Tak
MapKeyToVector Konwertowanie kluczy z powrotem na wektory oryginalnych wartości Tak
MapKeyToBinaryVector Przekonwertuj klucze z powrotem na wektor binarny oryginalnych wartości Nie.
Hash Zahaszuj wartość w kolumnie wejściowej Tak

Przekształcenia tekstu

Przekształć Definicja Możliwość eksportowania ONNX
FeaturizeText Przekształcanie kolumny tekstowej w tablicę zmiennoprzecinkową znormalizowanych liczników n-gramów i znakogramów Nie.
TokenizeIntoWords Dzielenie co najmniej jednej kolumny tekstowej na pojedyncze wyrazy Tak
TokenizeIntoCharactersAsKeys Podziel jedną lub więcej kolumn tekstowych na pojedyncze znaki rozproszone nad zestawem tematów. Tak
NormalizeText Zmień wielkość liter, usuń znaki diakrytyczne, znaki interpunkcyjne i liczby Tak
ProduceNgrams Przekształć kolumnę tekstową w zbiór liczebności ngramów (sekwencje kolejnych wyrazów) Tak
ProduceWordBags Przekształć kolumnę tekstową w torbę liczników wektora ngramów Tak
ProduceHashedNgrams Przekształcanie kolumny tekstowej w wektor liczby zhashowanych ngramów Nie.
ProduceHashedWordBags Przekształcanie kolumny tekstowej w torbę skrótów liczb ngramu Tak
RemoveDefaultStopWords Usuń domyślne słowa zatrzymania dla określonego języka z kolumn wejściowych Tak
RemoveStopWords Usuwa określone słowa stop z kolumn wejściowych Tak
LatentDirichletAllocation Przekształć dokument (reprezentowany jako wektor liczb zmiennoprzecinkowych) w wektor liczb zmiennoprzecinkowych w kontekście zestawu tematów Tak
ApplyWordEmbedding Konwertowanie wektorów tokenów tekstowych na wektory zdań przy użyciu wstępnie wytrenowanego modelu Tak

Przekształcenia obrazów

Przekształć Definicja Możliwość eksportu ONNX
ConvertToGrayscale Konwertowanie obrazu na skala szarości Nie.
ConvertToImage Konwertowanie wektora pikseli na ImageDataViewType Nie.
ExtractPixels Konwertowanie pikseli z obrazu wejściowego na wektor liczb Nie.
LoadImages Ładowanie obrazów z folderu do pamięci Nie.
LoadRawImageBytes Ładuje obrazy surowych bajtów do nowej kolumny. Nie.
ResizeImages Zmienianie rozmiaru obrazów Nie.
DnnFeaturizeImage Stosuje wstępnie wytrenowany model głębokiej sieci neuronowej (DNN), aby przekształcić obraz wejściowy w wektor funkcji Nie.

Przekształcenia danych kategorii

Przekształć Definicja Możliwość eksportowania ONNX
OneHotEncoding Przekształć co najmniej jedną kolumnę tekstową na wektory zakodowane one-hot Tak
OneHotHashEncoding Konwertuj jedną lub więcej kolumn tekstowych na wektory jednokrotnego kodowania oparte na skrócie. Nie.

Przekształcenia danych szeregów czasowych

Przekształć Definicja ONNX Eksportowalny
DetectAnomalyBySrCnn Wykrywanie anomalii w danych wejściowych szeregów czasowych przy użyciu algorytmu Spectral Residual (SR) Nie.
DetectChangePointBySsa Wykrywanie punktów zmian w danych szeregów czasowych przy użyciu analizy pojedynczego spektrum (SSA) Nie.
DetectIidChangePoint Wykrywanie punktów zmian w niezależnych i identycznie rozkładalnych danych szeregów czasowych (IID) przy użyciu adaptacyjnych estymacji gęstości jądra i miar martingale Nie.
ForecastBySsa Prognozowanie danych szeregów czasowych przy użyciu analizy pojedynczego spektrum (SSA) Nie.
DetectSpikeBySsa Wykrywanie skoków w danych szeregów czasowych przy użyciu analizy pojedynczego spektrum (SSA) Nie.
DetectIidSpike Wykrywanie skoków w niezależnych i identycznie rozłożonych (IID) danych szeregów czasowych przy użyciu adaptacyjnych oszacowań gęstości jądra i ocen martingale Nie.
DetectEntireAnomalyBySrCnn Wykrywanie anomalii dla wszystkich danych wejściowych przy użyciu algorytmu SRCNN. Nie.
DetectSeasonality Wykrywanie sezonowości przy użyciu analizy Fouriera. Nie.
LocalizeRootCause Lokalizuje główną przyczynę z danych wejściowych szeregów czasowych przy użyciu algorytmu drzewa decyzyjnego. Nie.
LocalizeRootCauses Lokalizuje główne przyczyny z danych sekwencyjnych. Nie.

Brakujące wartości

Przekształcanie Definicja Możliwość eksportowania ONNX
IndicateMissingValues Utwórz nową kolumnę wyjściową typu logicznego, w której wartość wynosi true, gdy w kolumnie wejściowej brakuje wartości. Tak
ReplaceMissingValues Utwórz nową kolumnę wyjściową, której wartość jest ustawiana na domyślną, jeśli brakuje jej w kolumnie wejściowej; w przeciwnym razie używana jest wartość z kolumny wejściowej. Tak

Wybieranie funkcji

Przekształcanie Definicja Możliwość eksportowania ONNX
SelectFeaturesBasedOnCount Wybierz funkcje, których wartości inne niż domyślne są większe niż próg Tak
SelectFeaturesBasedOnMutualInformation Wybierz funkcje, na których najbardziej zależne są dane w kolumnie etykiety Tak

Przekształcenia funkcji

Przekształcanie Definicja Możliwość eksportowania ONNX
ApproximatedKernelMap Mapuj każdy wektor wejściowy na przestrzeń cech o niższym wymiarze, gdzie produkty wewnętrzne przybliżają funkcję jądra, dzięki czemu cechy mogą być używane jako dane wejściowe do algorytmów liniowych. Nie.
ProjectToPrincipalComponents Zmniejszanie wymiarów wektora funkcji wejściowej przez zastosowanie algorytmu analizy głównych składników

Przekształcenia wyjaśnialności

Przekształcanie Definicja Możliwość eksportowania ONNX
CalculateFeatureContribution Obliczanie wyników udziału dla każdego elementu wektora cech Nie.

Przekształcenia kalibracji

Przekształcanie Definicja Możliwość eksportowania ONNX
Platt(String, String, String) Przekształca nieprzetworzony wynik klasyfikatora binarnego na prawdopodobieństwo klasy przy użyciu regresji logistycznej z parametrami szacowanymi na podstawie danych treningowych. Tak
Platt(Double, Double, String) Przekształca nieprzetworzone wyniki klasyfikatora binarnego w prawdopodobieństwo klasy przy użyciu regresji logistycznej ze stałymi parametrami Tak
Naive Przekształca nieprzetworzone wyniki klasyfikatora binarnego na prawdopodobieństwo klasy, przypisując wyniki do pojemników i obliczając prawdopodobieństwo na podstawie rozkładu między pojemnikami Tak
Isotonic Przekształca nieprzetworzone wyniki klasyfikatora binarnego na prawdopodobieństwo klasy, przypisując wyniki do pojemników, gdzie położenie granic i rozmiar pojemników są szacowane przy użyciu danych treningowych Nie.

Przekształcenia uczenia głębokiego

Przekształcanie Definicja Możliwość eksportowania ONNX
ApplyOnnxModel Przekształcanie danych wejściowych przy użyciu zaimportowanego modelu ONNX Nie.
LoadTensorFlowModel Przekształcanie danych wejściowych przy użyciu zaimportowanego modelu TensorFlow Nie.

Przekształcenia niestandardowe

Przekształcanie Definicja Możliwość eksportowania ONNX
FilterByCustomPredicate Porzuca wiersze, w których określony predykat zwraca wartość true. Nie.
FilterByStatefulCustomPredicate Porzuca wiersze, w których określony predykat zwraca wartość true, ale dopuszcza określony stan. Nie.
CustomMapping Przekształcanie istniejących kolumn na nowe przy użyciu mapowania zdefiniowanego przez użytkownika Nie.
Expression Stosowanie wyrażenia w celu przekształcania kolumn w nowe Nie.