Udostępnij za pośrednictwem


Przekształcenia danych

Przekształcenia danych służą do:

  • przygotowywanie danych do trenowania modelu
  • stosowanie zaimportowanego modelu w formacie TensorFlow lub ONNX
  • po przetworzeniu danych po ich przekazaniu przez model

Przekształcenia w tym przewodniku zwracają klasy implementujące interfejs IEstimator . Przekształcenia danych można łączyć w łańcuchy. Każda transformacja oczekuje i tworzy dane określonych typów i formatów, które są określone w dokumentacji połączonej dokumentacji referencyjnej.

Niektóre przekształcenia danych wymagają danych szkoleniowych w celu obliczenia ich parametrów. Na przykład: NormalizeMeanVariance transformator oblicza średnią i wariancję danych treningowych podczas Fit() operacji i używa tych parametrów w Transform() operacji.

Inne przekształcenia danych nie wymagają danych szkoleniowych. Na przykład: transformacja ConvertToGrayscale może wykonać operację Transform() bez jakichkolwiek danych treningowych Fit() podczas operacji.

Mapowanie kolumn i grupowanie

Przekształcanie Definicja Możliwość eksportowania ONNX
Concatenate Łączenie co najmniej jednej kolumny wejściowej w nowej kolumnie wyjściowej Tak
CopyColumns Kopiowanie i zmienianie nazwy co najmniej jednej kolumny wejściowej Tak
DropColumns Upuść co najmniej jedną kolumnę wejściową Tak
SelectColumns Wybierz co najmniej jedną kolumnę, aby zachować dane wejściowe Tak

Normalizacja i skalowanie

Przekształcanie Definicja Możliwość eksportowania ONNX
NormalizeMeanVariance Odejmowanie średniej (danych treningowych) i podzielenie przez wariancję (danych treningowych) Tak
NormalizeLogMeanVariance Normalizacja na podstawie logarytmu danych treningowych Tak
NormalizeLpNorm Skaluj wektory wejściowe według ich lp-norm, gdzie p wynosi 1, 2 lub nieskończoność. Wartości domyślne normy l2 (odległość euklidesowa) Tak
NormalizeGlobalContrast Skaluj każdą wartość w wierszu, odejmując średnią danych wierszy i dzieląc przez odchylenie standardowe lub l2-normę (dane wierszy) i mnożąc przez konfigurowalny współczynnik skalowania (domyślnie 2) Tak
NormalizeBinning Przypisz wartość wejściową do indeksu pojemnika i podziel według liczby pojemników, aby wygenerować wartość zmiennoprzecinkową z zakresu od 0 do 1. Granice pojemnika są obliczane w celu równomiernego rozłożenia danych treningowych między pojemnikami Tak
NormalizeSupervisedBinning Przypisywanie wartości wejściowej do pojemnika na podstawie jego korelacji z kolumną etykiety Tak
NormalizeMinMax Skalowanie danych wejściowych według różnicy między wartościami minimalnymi i maksymalnymi w danych treningowych Tak
NormalizeRobustScaling Skaluj każdą wartość przy użyciu statystyk niezawodnych dla wartości odstających, które wyśrodkują dane około 0 i skalują dane zgodnie z zakresem kwantylu. Tak

Konwersje między typami danych

Przekształcanie Definicja Możliwość eksportowania ONNX
ConvertType Konwertowanie typu kolumny wejściowej na nowy typ Tak
MapValue Mapowanie wartości na klucze (kategorie) na podstawie dostarczonego słownika mapowań Nie.
MapValueToKey Mapowanie wartości na klucze (kategorie) przez utworzenie mapowania na podstawie danych wejściowych Tak
MapKeyToValue Konwertowanie kluczy z powrotem na ich oryginalne wartości Tak
MapKeyToVector Konwertowanie kluczy z powrotem na wektory oryginalnych wartości Tak
MapKeyToBinaryVector Konwertowanie kluczy z powrotem na wektor binarny oryginalnych wartości Nie.
Hash Skrót wartości w kolumnie wejściowej Tak

Przekształcenia tekstu

Przekształcanie Definicja Możliwość eksportowania ONNX
FeaturizeText Przekształcanie kolumny tekstowej w tablicę zmiennoprzecinkową znormalizowanych ngramów i gramów znaków Nie.
TokenizeIntoWords Dzielenie co najmniej jednej kolumny tekstowej na pojedyncze wyrazy Tak
TokenizeIntoCharactersAsKeys Podziel co najmniej jedną kolumnę tekstową na poszczególne znaki zmiennoprzecinkowe na zestaw tematów Tak
NormalizeText Zmień wielkość liter, usuń znaki diakrytyczne, znaki interpunkcyjne i liczby Tak
ProduceNgrams Przekształcanie kolumny tekstowej w torbę liczb ngramów (sekwencje kolejnych wyrazów) Tak
ProduceWordBags Przekształcanie kolumny tekstowej w torbę liczby wektorów ngramów Tak
ProduceHashedNgrams Przekształcanie kolumny tekstowej w wektor liczby skrótów ngramów Nie.
ProduceHashedWordBags Przekształcanie kolumny tekstowej w torbę skrótów liczb ngramu Tak
RemoveDefaultStopWords Usuń domyślne słowa zatrzymania dla określonego języka z kolumn wejściowych Tak
RemoveStopWords Usuwa określone słowa zatrzymania z kolumn wejściowych Tak
LatentDirichletAllocation Przekształcanie dokumentu (reprezentowanego jako wektor zmiennoprzecinków) w wektor zmiennoprzecinkowy na zestawie tematów Tak
ApplyWordEmbedding Konwertowanie wektorów tokenów tekstowych na wektory zdań przy użyciu wstępnie wytrenowanego modelu Tak

Przekształcenia obrazów

Przekształcanie Definicja Możliwość eksportowania ONNX
ConvertToGrayscale Konwertowanie obrazu na skala szarości Nie.
ConvertToImage Konwertowanie wektora pikseli na ImageDataViewType Nie.
ExtractPixels Konwertowanie pikseli z obrazu wejściowego na wektor liczb Nie.
LoadImages Ładowanie obrazów z folderu do pamięci Nie.
LoadRawImageBytes Ładuje obrazy nieprzetworzonych bajtów do nowej kolumny. Nie.
ResizeImages Zmienianie rozmiaru obrazów Nie.
DnnFeaturizeImage Stosuje wstępnie wytrenowany model głębokiej sieci neuronowej (DNN), aby przekształcić obraz wejściowy w wektor funkcji Nie.

Przekształcenia danych kategorii

Przekształcanie Definicja Możliwość eksportowania ONNX
OneHotEncoding Konwertowanie co najmniej jednej kolumny tekstowej na wektory zakodowane na gorąco Tak
OneHotHashEncoding Konwertowanie co najmniej jednej kolumny tekstowej na wektory zakodowane na podstawie skrótu Nie.

Przekształcenia danych szeregów czasowych

Przekształcanie Definicja Możliwość eksportowania ONNX
DetectAnomalyBySrCnn Wykrywanie anomalii w danych wejściowych szeregów czasowych przy użyciu algorytmu Spectral Residual (SR) Nie.
DetectChangePointBySsa Wykrywanie punktów zmian w danych szeregów czasowych przy użyciu analizy pojedynczego spektrum (SSA) Nie.
DetectIidChangePoint Wykrywanie punktów zmian w niezależnych i identycznych danych szeregów czasowych (IID) przy użyciu adaptacyjnych oszacowań gęstości jądra i wyników martingale Nie.
ForecastBySsa Prognozowanie danych szeregów czasowych przy użyciu analizy pojedynczego spektrum (SSA) Nie.
DetectSpikeBySsa Wykrywanie skoków w danych szeregów czasowych przy użyciu analizy pojedynczego spektrum (SSA) Nie.
DetectIidSpike Wykrywanie skoków liczby niezależnych i identycznych danych szeregów czasowych (IID) przy użyciu adaptacyjnych oszacowań gęstości jądra i wyników martingale Nie.
DetectEntireAnomalyBySrCnn Wykrywanie anomalii dla wszystkich danych wejściowych przy użyciu algorytmu SRCNN. Nie.
DetectSeasonality Wykrywanie sezonowości przy użyciu bardziej czwartej analizy. Nie.
LocalizeRootCause Lokalizuje główną przyczynę z danych wejściowych szeregów czasowych przy użyciu algorytmu drzewa decyzyjnego. Nie.
LocalizeRootCauses Lokalizuje główne przyczyny z wejścia serii tie. Nie.

Brakujące wartości

Przekształcanie Definicja Możliwość eksportowania ONNX
IndicateMissingValues Utwórz nową kolumnę danych wyjściowych wartości logicznej, której wartość ma wartość true, gdy brakuje wartości w kolumnie wejściowej Tak
ReplaceMissingValues Utwórz nową kolumnę wyjściową, której wartość jest ustawiona na wartość domyślną, jeśli brakuje wartości z kolumny wejściowej, a wartość wejściowa w przeciwnym razie Tak

Wybieranie funkcji

Przekształcanie Definicja Możliwość eksportowania ONNX
SelectFeaturesBasedOnCount Wybierz funkcje, których wartości inne niż domyślne są większe niż próg Tak
SelectFeaturesBasedOnMutualInformation Wybierz funkcje, na których najbardziej zależne są dane w kolumnie etykiety Tak

Przekształcenia funkcji

Przekształcanie Definicja Możliwość eksportowania ONNX
ApproximatedKernelMap Mapuj każdy wektor wejściowy na przestrzeń cech o niższym wymiarach, gdzie wewnętrzne produkty przybliżone funkcji jądra, dzięki czemu funkcje mogą być używane jako dane wejściowe do algorytmów liniowych Nie.
ProjectToPrincipalComponents Zmniejszanie wymiarów wektora funkcji wejściowej przez zastosowanie algorytmu analizy głównych składników

Przekształcenia możliwości objaśnienia

Przekształcanie Definicja Możliwość eksportowania ONNX
CalculateFeatureContribution Obliczanie wyników udziału dla każdego elementu wektora cech Nie.

Przekształcenia kalibracji

Przekształcanie Definicja Możliwość eksportowania ONNX
Platt(String, String, String) Przekształca binarny klasyfikator nieprzetworzonego wyniku na prawdopodobieństwo klasy przy użyciu regresji logistycznej z parametrami szacowanymi przy użyciu danych treningowych Tak
Platt(Double, Double, String) Przekształca nieprzetworzone wyniki klasyfikatora binarnego w prawdopodobieństwo klasy przy użyciu regresji logistycznej ze stałymi parametrami Tak
Naive Przekształca nieprzetworzone wyniki klasyfikatora binarnego na prawdopodobieństwo klasy, przypisując wyniki do pojemników i obliczając prawdopodobieństwo na podstawie rozkładu między pojemnikami Tak
Isotonic Przekształca nieprzetworzone wyniki klasyfikatora binarnego na prawdopodobieństwo klasy, przypisując wyniki do pojemników, gdzie położenie granic i rozmiar pojemników są szacowane przy użyciu danych treningowych Nie.

Przekształcenia uczenia głębokiego

Przekształcanie Definicja Możliwość eksportowania ONNX
ApplyOnnxModel Przekształcanie danych wejściowych przy użyciu zaimportowanego modelu ONNX Nie.
LoadTensorFlowModel Przekształcanie danych wejściowych przy użyciu zaimportowanego modelu TensorFlow Nie.

Przekształcenia niestandardowe

Przekształcanie Definicja Możliwość eksportowania ONNX
FilterByCustomPredicate Porzuca wiersze, w których określony predykat zwraca wartość true. Nie.
FilterByStatefulCustomPredicate Porzuca wiersze, w których określony predykat zwraca wartość true, ale zezwala na określony stan. Nie.
CustomMapping Przekształcanie istniejących kolumn na nowe przy użyciu mapowania zdefiniowanego przez użytkownika Nie.
Expression Stosowanie wyrażenia w celu przekształcania kolumn w nowe Nie.