Przekształcenia danych służą do:
- Przygotowywanie danych do trenowania modelu.
- Zastosuj zaimportowany model w formacie TensorFlow lub ONNX.
- Po przetworzeniu danych po przekazaniu ich przez model.
Przekształcenia w tym przewodniku zwracają klasy implementujące interfejs IEstimator . Przekształcenia danych można łączyć w łańcuchy. Każda transformacja oczekuje i tworzy dane określonych typów i formatów, które są określone w dokumentacji połączonej dokumentacji referencyjnej.
Niektóre przekształcenia danych wymagają danych szkoleniowych w celu obliczenia ich parametrów. Na przykład: NormalizeMeanVariance transformator oblicza średnią i wariancję danych treningowych podczas Fit() operacji i używa tych parametrów w Transform() operacji.
Inne przekształcenia danych nie wymagają danych szkoleniowych. Na przykład: transformacja ConvertToGrayscale może wykonać operację Transform() bez jakichkolwiek danych treningowych Fit() podczas operacji.
Mapowanie kolumn i grupowanie
| Przekształcanie |
Definicja |
Możliwość eksportowania ONNX |
| Concatenate |
Łączenie co najmniej jednej kolumny wejściowej w nowej kolumnie wyjściowej |
Tak |
| CopyColumns |
Kopiowanie i zmienianie nazwy co najmniej jednej kolumny wejściowej |
Tak |
| DropColumns |
Upuść co najmniej jedną kolumnę wejściową |
Tak |
| SelectColumns |
Wybierz co najmniej jedną kolumnę, aby zachować dane wejściowe |
Tak |
Normalizacja i skalowanie
| Przekształcanie |
Definicja |
Możliwość eksportowania ONNX |
| NormalizeMeanVariance |
Odejmowanie średniej (danych treningowych) i podzielenie przez wariancję (danych treningowych) |
Tak |
| NormalizeLogMeanVariance |
Normalizacja na podstawie logarytmu danych treningowych |
Tak |
| NormalizeLpNorm |
Skaluj wektory wejściowe według ich lp-norm, gdzie p wynosi 1, 2 lub nieskończoność. Wartości domyślne normy l2 (odległość euklidesowa) |
Tak |
| NormalizeGlobalContrast |
Skaluj każdą wartość w wierszu, odejmując średnią danych wierszy i dzieląc przez odchylenie standardowe lub l2-normę (dane wierszy) i mnożąc przez konfigurowalny współczynnik skalowania (domyślnie 2) |
Tak |
| NormalizeBinning |
Przypisz wartość wejściową do indeksu pojemnika i podziel według liczby pojemników, aby wygenerować wartość zmiennoprzecinkową z zakresu od 0 do 1. Granice pojemnika są obliczane w celu równomiernego rozłożenia danych treningowych między pojemnikami |
Tak |
| NormalizeSupervisedBinning |
Przypisywanie wartości wejściowej do pojemnika na podstawie jego korelacji z kolumną etykiety |
Tak |
| NormalizeMinMax |
Skalowanie danych wejściowych według różnicy między wartościami minimalnymi i maksymalnymi w danych treningowych |
Tak |
| NormalizeRobustScaling |
Skaluj każdą wartość przy użyciu statystyk niezawodnych dla wartości odstających, które wyśrodkują dane około 0 i skalują dane zgodnie z zakresem kwantylu. |
Tak |
Konwersje między typami danych
| Przekształcanie |
Definicja |
Możliwość eksportowania ONNX |
| ConvertType |
Konwertowanie typu kolumny wejściowej na nowy typ |
Tak |
| MapValue |
Mapowanie wartości na klucze (kategorie) na podstawie dostarczonego słownika mapowań |
Nie. |
| MapValueToKey |
Mapowanie wartości na klucze (kategorie) przez utworzenie mapowania na podstawie danych wejściowych |
Tak |
| MapKeyToValue |
Konwertowanie kluczy z powrotem na ich oryginalne wartości |
Tak |
| MapKeyToVector |
Konwertowanie kluczy z powrotem na wektory oryginalnych wartości |
Tak |
| MapKeyToBinaryVector |
Konwertowanie kluczy z powrotem na wektor binarny oryginalnych wartości |
Nie. |
| Hash |
Skrót wartości w kolumnie wejściowej |
Tak |
Przekształcenia tekstu
| Przekształcanie |
Definicja |
Możliwość eksportowania ONNX |
| FeaturizeText |
Przekształcanie kolumny tekstowej w tablicę zmiennoprzecinkową znormalizowanych ngramów i gramów znaków |
Nie. |
| TokenizeIntoWords |
Dzielenie co najmniej jednej kolumny tekstowej na pojedyncze wyrazy |
Tak |
| TokenizeIntoCharactersAsKeys |
Podziel co najmniej jedną kolumnę tekstową na poszczególne znaki zmiennoprzecinkowe na zestaw tematów |
Tak |
| NormalizeText |
Zmień wielkość liter, usuń znaki diakrytyczne, znaki interpunkcyjne i liczby |
Tak |
| ProduceNgrams |
Przekształcanie kolumny tekstowej w torbę liczb ngramów (sekwencje kolejnych wyrazów) |
Tak |
| ProduceWordBags |
Przekształcanie kolumny tekstowej w torbę liczby wektorów ngramów |
Tak |
| ProduceHashedNgrams |
Przekształcanie kolumny tekstowej w wektor liczby skrótów ngramów |
Nie. |
| ProduceHashedWordBags |
Przekształcanie kolumny tekstowej w torbę skrótów liczb ngramu |
Tak |
| RemoveDefaultStopWords |
Usuń domyślne słowa zatrzymania dla określonego języka z kolumn wejściowych |
Tak |
| RemoveStopWords |
Usuwa określone słowa zatrzymania z kolumn wejściowych |
Tak |
| LatentDirichletAllocation |
Przekształcanie dokumentu (reprezentowanego jako wektor zmiennoprzecinków) w wektor zmiennoprzecinkowy na zestawie tematów |
Tak |
| ApplyWordEmbedding |
Konwertowanie wektorów tokenów tekstowych na wektory zdań przy użyciu wstępnie wytrenowanego modelu |
Tak |
| Przekształcanie |
Definicja |
Możliwość eksportowania ONNX |
| ConvertToGrayscale |
Konwertowanie obrazu na skala szarości |
Nie. |
| ConvertToImage |
Konwertowanie wektora pikseli na ImageDataViewType |
Nie. |
| ExtractPixels |
Konwertowanie pikseli z obrazu wejściowego na wektor liczb |
Nie. |
| LoadImages |
Ładowanie obrazów z folderu do pamięci |
Nie. |
| LoadRawImageBytes |
Ładuje obrazy nieprzetworzonych bajtów do nowej kolumny. |
Nie. |
| ResizeImages |
Zmienianie rozmiaru obrazów |
Nie. |
| DnnFeaturizeImage |
Stosuje wstępnie wytrenowany model głębokiej sieci neuronowej (DNN), aby przekształcić obraz wejściowy w wektor funkcji |
Nie. |
| Przekształcanie |
Definicja |
Możliwość eksportowania ONNX |
| OneHotEncoding |
Konwertowanie co najmniej jednej kolumny tekstowej na wektory zakodowane na gorąco |
Tak |
| OneHotHashEncoding |
Konwertowanie co najmniej jednej kolumny tekstowej na wektory zakodowane na podstawie skrótu |
Nie. |
| Przekształcanie |
Definicja |
Możliwość eksportowania ONNX |
| DetectAnomalyBySrCnn |
Wykrywanie anomalii w danych wejściowych szeregów czasowych przy użyciu algorytmu Spectral Residual (SR) |
Nie. |
| DetectChangePointBySsa |
Wykrywanie punktów zmian w danych szeregów czasowych przy użyciu analizy pojedynczego spektrum (SSA) |
Nie. |
| DetectIidChangePoint |
Wykrywanie punktów zmian w niezależnych i identycznych danych szeregów czasowych (IID) przy użyciu adaptacyjnych oszacowań gęstości jądra i wyników martingale |
Nie. |
| ForecastBySsa |
Prognozowanie danych szeregów czasowych przy użyciu analizy pojedynczego spektrum (SSA) |
Nie. |
| DetectSpikeBySsa |
Wykrywanie skoków w danych szeregów czasowych przy użyciu analizy pojedynczego spektrum (SSA) |
Nie. |
| DetectIidSpike |
Wykrywanie skoków liczby niezależnych i identycznych danych szeregów czasowych (IID) przy użyciu adaptacyjnych oszacowań gęstości jądra i wyników martingale |
Nie. |
| DetectEntireAnomalyBySrCnn |
Wykrywanie anomalii dla wszystkich danych wejściowych przy użyciu algorytmu SRCNN. |
Nie. |
| DetectSeasonality |
Wykrywanie sezonowości przy użyciu bardziej czwartej analizy. |
Nie. |
| LocalizeRootCause |
Lokalizuje główną przyczynę z danych wejściowych szeregów czasowych przy użyciu algorytmu drzewa decyzyjnego. |
Nie. |
| LocalizeRootCauses |
Lokalizuje główne przyczyny z wejścia serii tie. |
Nie. |
Brakujące wartości
| Przekształcanie |
Definicja |
Możliwość eksportowania ONNX |
| IndicateMissingValues |
Utwórz nową kolumnę danych wyjściowych wartości logicznej, której wartość ma wartość true, gdy brakuje wartości w kolumnie wejściowej |
Tak |
| ReplaceMissingValues |
Utwórz nową kolumnę wyjściową, której wartość jest ustawiona na wartość domyślną, jeśli brakuje wartości z kolumny wejściowej, a wartość wejściowa w przeciwnym razie |
Tak |
Wybieranie funkcji
| Przekształcanie |
Definicja |
Możliwość eksportowania ONNX |
| ApproximatedKernelMap |
Mapuj każdy wektor wejściowy na przestrzeń cech o niższym wymiarach, gdzie wewnętrzne produkty przybliżone funkcji jądra, dzięki czemu funkcje mogą być używane jako dane wejściowe do algorytmów liniowych |
Nie. |
| ProjectToPrincipalComponents |
Zmniejszanie wymiarów wektora funkcji wejściowej przez zastosowanie algorytmu analizy głównych składników |
|
| Przekształcanie |
Definicja |
Możliwość eksportowania ONNX |
| CalculateFeatureContribution |
Obliczanie wyników udziału dla każdego elementu wektora cech |
Nie. |
| Przekształcanie |
Definicja |
Możliwość eksportowania ONNX |
| Platt(String, String, String) |
Przekształca binarny klasyfikator nieprzetworzonego wyniku na prawdopodobieństwo klasy przy użyciu regresji logistycznej z parametrami szacowanymi przy użyciu danych treningowych |
Tak |
| Platt(Double, Double, String) |
Przekształca nieprzetworzone wyniki klasyfikatora binarnego w prawdopodobieństwo klasy przy użyciu regresji logistycznej ze stałymi parametrami |
Tak |
| Naive |
Przekształca nieprzetworzone wyniki klasyfikatora binarnego na prawdopodobieństwo klasy, przypisując wyniki do pojemników i obliczając prawdopodobieństwo na podstawie rozkładu między pojemnikami |
Tak |
| Isotonic |
Przekształca nieprzetworzone wyniki klasyfikatora binarnego na prawdopodobieństwo klasy, przypisując wyniki do pojemników, gdzie położenie granic i rozmiar pojemników są szacowane przy użyciu danych treningowych |
Nie. |
| Przekształcanie |
Definicja |
Możliwość eksportowania ONNX |
| ApplyOnnxModel |
Przekształcanie danych wejściowych przy użyciu zaimportowanego modelu ONNX |
Nie. |
| LoadTensorFlowModel |
Przekształcanie danych wejściowych przy użyciu zaimportowanego modelu TensorFlow |
Nie. |
| Przekształcanie |
Definicja |
Możliwość eksportowania ONNX |
| FilterByCustomPredicate |
Porzuca wiersze, w których określony predykat zwraca wartość true. |
Nie. |
| FilterByStatefulCustomPredicate |
Porzuca wiersze, w których określony predykat zwraca wartość true, ale zezwala na określony stan. |
Nie. |
| CustomMapping |
Przekształcanie istniejących kolumn na nowe przy użyciu mapowania zdefiniowanego przez użytkownika |
Nie. |
| Expression |
Stosowanie wyrażenia w celu przekształcania kolumn w nowe |
Nie. |