Przekształcenia danych służą do:
- Przygotowywanie danych do trenowania modelu.
- Zastosuj zaimportowany model w formacie TensorFlow lub ONNX.
- Po przetworzeniu danych po przekazaniu ich przez model.
Przekształcenia w tym przewodniku zwracają klasy implementujące interfejs IEstimator . Przekształcenia danych można łączyć w łańcuchy. Każda transformacja oczekuje i generuje dane określonych typów i formatów, które są podane w powiązanej dokumentacji referencyjnej.
Niektóre przekształcenia danych wymagają danych szkoleniowych w celu obliczenia ich parametrów. Na przykład: NormalizeMeanVariance transformator oblicza średnią i wariancję danych treningowych w trakcie wykonywania operacji Fit() i używa tych parametrów podczas operacji Transform().
Inne przekształcenia danych nie wymagają danych szkoleniowych. Na przykład: transformacja ConvertToGrayscale może wykonać operację Transform() bez wcześniejszego dostępu do jakichkolwiek danych treningowych podczas operacji Fit().
Mapowanie kolumn i grupowanie
| Przekształć |
Definicja |
Możliwość eksportowania ONNX |
| Concatenate |
Połącz jedną lub więcej kolumn wejściowych do nowej kolumny wyjściowej. |
Tak |
| CopyColumns |
Kopiowanie i zmienianie nazwy co najmniej jednej kolumny wejściowej |
Tak |
| DropColumns |
Upuść co najmniej jedną kolumnę wejściową |
Tak |
| SelectColumns |
Wybierz co najmniej jedną kolumnę, aby zachować dane wejściowe |
Tak |
Normalizacja i skalowanie
| Przekształć |
Definicja |
Możliwość eksportowania ONNX |
| NormalizeMeanVariance |
Odejmowanie średniej (danych treningowych) i podzielenie przez wariancję (danych treningowych) |
Tak |
| NormalizeLogMeanVariance |
Normalizacja na podstawie logarytmu danych treningowych |
Tak |
| NormalizeLpNorm |
Skaluj wektory wejściowe według ich lp-norm, gdzie p wynosi 1, 2 lub nieskończoność. Wartości domyślne normy l2 (odległość euklidesowa) |
Tak |
| NormalizeGlobalContrast |
Skaluj każdą wartość w wierszu, odejmując średnią danych wierszy i dzieląc przez odchylenie standardowe lub l2-normę (dane wierszy) i mnożąc przez konfigurowalny współczynnik skalowania (domyślnie 2) |
Tak |
| NormalizeBinning |
Przypisz wartość wejściową do indeksu pojemnika i podziel według liczby pojemników, aby wygenerować wartość zmiennoprzecinkową z zakresu od 0 do 1. Granice pojemnika są obliczane w celu równomiernego rozłożenia danych treningowych między pojemnikami |
Tak |
| NormalizeSupervisedBinning |
Przypisywanie wartości wejściowej do pojemnika na podstawie jego korelacji z kolumną etykiety |
Tak |
| NormalizeMinMax |
Skalowanie danych wejściowych według różnicy między wartościami minimalnymi i maksymalnymi w danych treningowych |
Tak |
| NormalizeRobustScaling |
Skaluj każdą wartość przy użyciu statystyk odpornych na wartości odstające, które wyśrodkują dane wokół zera i skalują dane zgodnie z zakresem kwantylowym. |
Tak |
Konwersje między typami danych
| Przekształcenie |
Definicja |
Możliwość eksportowania ONNX |
| ConvertType |
Konwertowanie typu kolumny wejściowej na nowy typ |
Tak |
| MapValue |
Mapowanie wartości na klucze (kategorie) na podstawie dostarczonego słownika mapowań |
Nie. |
| MapValueToKey |
Mapowanie wartości na klucze (kategorie) poprzez tworzenie mapowania na podstawie danych wejściowych |
Tak |
| MapKeyToValue |
Konwertowanie kluczy z powrotem na ich oryginalne wartości |
Tak |
| MapKeyToVector |
Konwertowanie kluczy z powrotem na wektory oryginalnych wartości |
Tak |
| MapKeyToBinaryVector |
Przekonwertuj klucze z powrotem na wektor binarny oryginalnych wartości |
Nie. |
| Hash |
Zahaszuj wartość w kolumnie wejściowej |
Tak |
Przekształcenia tekstu
| Przekształć |
Definicja |
Możliwość eksportowania ONNX |
| FeaturizeText |
Przekształcanie kolumny tekstowej w tablicę zmiennoprzecinkową znormalizowanych liczników n-gramów i znakogramów |
Nie. |
| TokenizeIntoWords |
Dzielenie co najmniej jednej kolumny tekstowej na pojedyncze wyrazy |
Tak |
| TokenizeIntoCharactersAsKeys |
Podziel jedną lub więcej kolumn tekstowych na pojedyncze znaki rozproszone nad zestawem tematów. |
Tak |
| NormalizeText |
Zmień wielkość liter, usuń znaki diakrytyczne, znaki interpunkcyjne i liczby |
Tak |
| ProduceNgrams |
Przekształć kolumnę tekstową w zbiór liczebności ngramów (sekwencje kolejnych wyrazów) |
Tak |
| ProduceWordBags |
Przekształć kolumnę tekstową w torbę liczników wektora ngramów |
Tak |
| ProduceHashedNgrams |
Przekształcanie kolumny tekstowej w wektor liczby zhashowanych ngramów |
Nie. |
| ProduceHashedWordBags |
Przekształcanie kolumny tekstowej w torbę skrótów liczb ngramu |
Tak |
| RemoveDefaultStopWords |
Usuń domyślne słowa zatrzymania dla określonego języka z kolumn wejściowych |
Tak |
| RemoveStopWords |
Usuwa określone słowa stop z kolumn wejściowych |
Tak |
| LatentDirichletAllocation |
Przekształć dokument (reprezentowany jako wektor liczb zmiennoprzecinkowych) w wektor liczb zmiennoprzecinkowych w kontekście zestawu tematów |
Tak |
| ApplyWordEmbedding |
Konwertowanie wektorów tokenów tekstowych na wektory zdań przy użyciu wstępnie wytrenowanego modelu |
Tak |
| Przekształć |
Definicja |
Możliwość eksportowania ONNX |
| OneHotEncoding |
Przekształć co najmniej jedną kolumnę tekstową na wektory zakodowane one-hot |
Tak |
| OneHotHashEncoding |
Konwertuj jedną lub więcej kolumn tekstowych na wektory jednokrotnego kodowania oparte na skrócie. |
Nie. |
| Przekształć |
Definicja |
ONNX Eksportowalny |
| DetectAnomalyBySrCnn |
Wykrywanie anomalii w danych wejściowych szeregów czasowych przy użyciu algorytmu Spectral Residual (SR) |
Nie. |
| DetectChangePointBySsa |
Wykrywanie punktów zmian w danych szeregów czasowych przy użyciu analizy pojedynczego spektrum (SSA) |
Nie. |
| DetectIidChangePoint |
Wykrywanie punktów zmian w niezależnych i identycznie rozkładalnych danych szeregów czasowych (IID) przy użyciu adaptacyjnych estymacji gęstości jądra i miar martingale |
Nie. |
| ForecastBySsa |
Prognozowanie danych szeregów czasowych przy użyciu analizy pojedynczego spektrum (SSA) |
Nie. |
| DetectSpikeBySsa |
Wykrywanie skoków w danych szeregów czasowych przy użyciu analizy pojedynczego spektrum (SSA) |
Nie. |
| DetectIidSpike |
Wykrywanie skoków w niezależnych i identycznie rozłożonych (IID) danych szeregów czasowych przy użyciu adaptacyjnych oszacowań gęstości jądra i ocen martingale |
Nie. |
| DetectEntireAnomalyBySrCnn |
Wykrywanie anomalii dla wszystkich danych wejściowych przy użyciu algorytmu SRCNN. |
Nie. |
| DetectSeasonality |
Wykrywanie sezonowości przy użyciu analizy Fouriera. |
Nie. |
| LocalizeRootCause |
Lokalizuje główną przyczynę z danych wejściowych szeregów czasowych przy użyciu algorytmu drzewa decyzyjnego. |
Nie. |
| LocalizeRootCauses |
Lokalizuje główne przyczyny z danych sekwencyjnych. |
Nie. |
Brakujące wartości
| Przekształcanie |
Definicja |
Możliwość eksportowania ONNX |
| IndicateMissingValues |
Utwórz nową kolumnę wyjściową typu logicznego, w której wartość wynosi true, gdy w kolumnie wejściowej brakuje wartości. |
Tak |
| ReplaceMissingValues |
Utwórz nową kolumnę wyjściową, której wartość jest ustawiana na domyślną, jeśli brakuje jej w kolumnie wejściowej; w przeciwnym razie używana jest wartość z kolumny wejściowej. |
Tak |
Wybieranie funkcji
| Przekształcanie |
Definicja |
Możliwość eksportowania ONNX |
| ApproximatedKernelMap |
Mapuj każdy wektor wejściowy na przestrzeń cech o niższym wymiarze, gdzie produkty wewnętrzne przybliżają funkcję jądra, dzięki czemu cechy mogą być używane jako dane wejściowe do algorytmów liniowych. |
Nie. |
| ProjectToPrincipalComponents |
Zmniejszanie wymiarów wektora funkcji wejściowej przez zastosowanie algorytmu analizy głównych składników |
|
| Przekształcanie |
Definicja |
Możliwość eksportowania ONNX |
| CalculateFeatureContribution |
Obliczanie wyników udziału dla każdego elementu wektora cech |
Nie. |
| Przekształcanie |
Definicja |
Możliwość eksportowania ONNX |
| Platt(String, String, String) |
Przekształca nieprzetworzony wynik klasyfikatora binarnego na prawdopodobieństwo klasy przy użyciu regresji logistycznej z parametrami szacowanymi na podstawie danych treningowych. |
Tak |
| Platt(Double, Double, String) |
Przekształca nieprzetworzone wyniki klasyfikatora binarnego w prawdopodobieństwo klasy przy użyciu regresji logistycznej ze stałymi parametrami |
Tak |
| Naive |
Przekształca nieprzetworzone wyniki klasyfikatora binarnego na prawdopodobieństwo klasy, przypisując wyniki do pojemników i obliczając prawdopodobieństwo na podstawie rozkładu między pojemnikami |
Tak |
| Isotonic |
Przekształca nieprzetworzone wyniki klasyfikatora binarnego na prawdopodobieństwo klasy, przypisując wyniki do pojemników, gdzie położenie granic i rozmiar pojemników są szacowane przy użyciu danych treningowych |
Nie. |
| Przekształcanie |
Definicja |
Możliwość eksportowania ONNX |
| ApplyOnnxModel |
Przekształcanie danych wejściowych przy użyciu zaimportowanego modelu ONNX |
Nie. |
| LoadTensorFlowModel |
Przekształcanie danych wejściowych przy użyciu zaimportowanego modelu TensorFlow |
Nie. |
| Przekształcanie |
Definicja |
Możliwość eksportowania ONNX |
| FilterByCustomPredicate |
Porzuca wiersze, w których określony predykat zwraca wartość true. |
Nie. |
| FilterByStatefulCustomPredicate |
Porzuca wiersze, w których określony predykat zwraca wartość true, ale dopuszcza określony stan. |
Nie. |
| CustomMapping |
Przekształcanie istniejących kolumn na nowe przy użyciu mapowania zdefiniowanego przez użytkownika |
Nie. |
| Expression |
Stosowanie wyrażenia w celu przekształcania kolumn w nowe |
Nie. |