Sdílet prostřednictvím


Transformace dat

Transformace dat se používají k:

  • příprava dat pro trénování modelu
  • použití importovaného modelu ve formátu TensorFlow nebo ONNX
  • po předání dat po zpracování modelem

Transformace v této příručce vracejí třídy, které implementují rozhraní IEstimator . Transformace dat je možné zřetězí dohromady. Každá transformace očekává a vytváří data konkrétních typů a formátů, které jsou uvedeny v propojené referenční dokumentaci.

Některé transformace dat vyžadují trénovací data k výpočtu jejich parametrů. Například: NormalizeMeanVariance transformátor vypočítá střední hodnotu a odchylku trénovacích dat během Fit() operace a použije tyto parametry v Transform() operaci.

Jiné transformace dat nevyžadují trénovací data. Například: ConvertToGrayscale Transformace může provést Transform() operaci, aniž by se během Fit() operace zobrazila žádná trénovací data.

Mapování a seskupení sloupců

Transformace Definice ONNX Exportable
Concatenate Zřetězení jednoho nebo více vstupních sloupců do nového výstupního sloupce Ano
CopyColumns Kopírování a přejmenování jednoho nebo více vstupních sloupců Ano
DropColumns Přetažení jednoho nebo více vstupních sloupců Ano
SelectColumns Vyberte jeden nebo více sloupců, které chcete zachovat ze vstupních dat. Ano

Normalizace a škálování

Transformace Definice ONNX Exportable
NormalizeMeanVariance Odečíst střední hodnoty (trénovacích dat) a vydělit odchylkou (trénovacích dat) Ano
NormalizeLogMeanVariance Normalizovat na základě logaritmu trénovacích dat Ano
NormalizeLpNorm Škálujte vstupní vektory podle jejich lp-norm, kde p je 1, 2 nebo nekonečno. Výchozí hodnota pro normu l2 (Euclidean distance) Ano
NormalizeGlobalContrast Měřítko každé hodnoty v řádku odečtením střední hodnoty dat řádku a rozdělením směrodatné odchylky nebo l2-normou (dat řádků) a vynásobením konfigurovatelným měřítkem (výchozí hodnota 2) Ano
NormalizeBinning Přiřaďte vstupní hodnotu indexu přihrádky a vydělte počtem intervalů hodnotu float mezi 0 a 1. Hranice přihrádky se počítají tak, aby rovnoměrně distribuovaly trénovací data mezi intervaly. Ano
NormalizeSupervisedBinning Přiřazení vstupní hodnoty do intervalu na základě jeho korelace se sloupcem popisku Ano
NormalizeMinMax Škálování vstupu pomocí rozdílu mezi minimální a maximální hodnotou v trénovacích datech Ano
NormalizeRobustScaling Škálujte každou hodnotu pomocí statistik, které jsou robustní pro odlehlé hodnoty, které budou data zacentrovat kolem 0 a škálují data podle rozsahu quantile. Ano

Převody mezi datovými typy

Transformace Definice ONNX Exportable
ConvertType Převod typu vstupního sloupce na nový typ Ano
MapValue Mapování hodnot na klíče (kategorie) na základě zadaného slovníku mapování No
MapValueToKey Mapování hodnot na klíče (kategorie) vytvořením mapování ze vstupních dat Ano
MapKeyToValue Převod klíčů zpět na původní hodnoty Ano
MapKeyToVector Převod klíčů zpět na vektory původních hodnot Ano
MapKeyToBinaryVector Převod klíčů zpět na binární vektor původních hodnot No
Hash Hash hodnoty ve vstupním sloupci Ano

Transformace textu

Transformace Definice ONNX Exportable
FeaturizeText Transformace textového sloupce na plovoucí pole normalizovaných ngramů a počtu znaků No
TokenizeIntoWords Rozdělení jednoho nebo více textových sloupců na jednotlivá slova Ano
TokenizeIntoCharactersAsKeys Rozdělení jednoho nebo více textových sloupců na jednotlivé znaky nad sadou témat Ano
NormalizeText Změna velikosti písmen, odebrání diakritických značek, interpunkčních značek a čísel Ano
ProduceNgrams Transformovat textový sloupec na sáček s počty ngramů (posloupnosti po sobě jdoucích slov) Ano
ProduceWordBags Transformace textového sloupce na sáček s počty vektorů ngramů Ano
ProduceHashedNgrams Transformace textového sloupce na vektor hodnot hashovaných počtů ngramů No
ProduceHashedWordBags Transformace textového sloupce na tašku s počtem ngramů s hodnotou hash Ano
RemoveDefaultStopWords Odebrání výchozích zarážek pro zadaný jazyk ze vstupních sloupců Ano
RemoveStopWords Odebere zadaná slova stop ze vstupních sloupců. Ano
LatentDirichletAllocation Transformace dokumentu (reprezentované jako vektor plovoucích hodnot) na vektor plovoucích hodnot nad sadou témat Ano
ApplyWordEmbedding Převod vektorů textových tokenů na vektory vět pomocí předem natrénovaného modelu Ano

Transformace obrázků

Transformace Definice ONNX Exportable
ConvertToGrayscale Převod obrázku na stupně šedé No
ConvertToImage Převedení vektoru pixelů na ImageDataViewType No
ExtractPixels Převod pixelů ze vstupního obrázku na vektor čísel No
LoadImages Načtení obrázků ze složky do paměti No
LoadRawImageBytes Načte obrázky nezpracovaných bajtů do nového sloupce. No
ResizeImages Změna velikosti obrázků No
DnnFeaturizeImage Použije předem natrénovaný model hluboké neurální sítě (DNN) k transformaci vstupního obrázku na vektor funkce. No

Kategorické transformace dat

Transformace Definice ONNX Exportable
OneHotEncoding Převod jednoho nebo více textových sloupců na vektory s kódováním 1 Ano
OneHotHashEncoding Převod jednoho nebo více textových sloupců na vektory s kódováním hash typu 1-hot No

Transformace dat časových řad

Transformace Definice ONNX Exportable
DetectAnomalyBySrCnn Detekce anomálií ve vstupních datech časových řad pomocí algoritmu Spectral Rezidua (SR) No
DetectChangePointBySsa Detekce bodů změn v datech časových řad pomocí analýzy jednotného spektra (SSA) No
DetectIidChangePoint Detekce bodů změn v datech časových řad nezávislých a identických distribuovaných (IID) pomocí odhadů hustoty adaptivního jádra a skóre martingale No
ForecastBySsa Prognózování dat časových řad pomocí analýzy jednotného spektra (SSA) No
DetectSpikeBySsa Detekce špiček v datech časových řad pomocí analýzy jednotného spektra (SSA) No
DetectIidSpike Detekce špiček v datech nezávislých a identických časových řad (IID) pomocí odhadů hustoty adaptivního jádra a skóre martingale No
DetectEntireAnomalyBySrCnn Pomocí algoritmu SRCNN detekujte anomálie pro celá vstupní data. No
DetectSeasonality Zjištění sezónnosti pomocí fourierové analýzy No
LocalizeRootCause Lokalizuje původní příčinu vstupu časové řady pomocí algoritmu rozhodovacího stromu. No
LocalizeRootCauses Lokalizuje původní příčiny vstupu řady. No

Chybějící hodnoty

Transformace Definice ONNX Exportable
IndicateMissingValues Vytvořte nový logický výstupní sloupec, jehož hodnota je true, pokud chybí hodnota ve vstupním sloupci. Ano
ReplaceMissingValues Vytvořte nový výstupní sloupec, jehož hodnota je nastavená na výchozí hodnotu, pokud hodnota ve vstupním sloupci chybí, a jinak vstupní hodnotu. Ano

Výběr součástí

Transformace Definice ONNX Exportable
SelectFeaturesBasedOnCount Výběr funkcí, jejichž jiné než výchozí hodnoty jsou větší než prahová hodnota Ano
SelectFeaturesBasedOnMutualInformation Vyberte funkce, na kterých jsou data ve sloupci popisků nejvíce závislá. Ano

Transformace funkcí

Transformace Definice ONNX Exportable
ApproximatedKernelMap Namapujte každý vstupní vektor na prostor s nižší dimenzí funkcí, kde vnitřní produkty přibližují funkci jádra, aby se funkce mohly použít jako vstupy lineárních algoritmů. No
ProjectToPrincipalComponents Snižte rozměry vektoru vstupní funkce použitím algoritmu analýzy hlavní komponenty.

Transformace vysvětlitelnosti

Transformace Definice ONNX Exportable
CalculateFeatureContribution Výpočet skóre příspěvku pro každý prvek vektoru funkce No

Transformace kalibrace

Transformace Definice ONNX Exportable
Platt(String, String, String) Transformuje binární klasifikátor nezpracované skóre na pravděpodobnost třídy pomocí logistické regrese s parametry odhadovanými pomocí trénovacích dat. Ano
Platt(Double, Double, String) Transformuje binární klasifikátor nezpracované skóre na pravděpodobnost třídy pomocí logistické regrese s pevnými parametry. Ano
Naive Transformuje binární klasifikátor nezpracované skóre na pravděpodobnost třídy přiřazením skóre do intervalů a výpočet pravděpodobnosti na základě rozdělení mezi intervaly. Ano
Isotonic Transformuje binární klasifikátor nezpracované skóre na pravděpodobnost třídy přiřazením skóre do intervalů, kde pozice hranic a velikost intervalů se odhadují pomocí trénovacích dat. No

Transformace hlubokého učení

Transformace Definice ONNX Exportable
ApplyOnnxModel Transformace vstupních dat pomocí importovaného modelu ONNX No
LoadTensorFlowModel Transformace vstupních dat pomocí importovaného modelu TensorFlow No

Vlastní transformace

Transformace Definice ONNX Exportable
FilterByCustomPredicate Zahodí řádky, ve kterých zadaný predikát vrátí hodnotu true. No
FilterByStatefulCustomPredicate Zahodí řádky, ve kterých zadaný predikát vrátí hodnotu true, ale umožňuje zadaný stav. No
CustomMapping Transformace existujících sloupců na nové pomocí uživatelem definovaného mapování No
Expression Použití výrazu k transformaci sloupců na nové Ne