Transformace dat se používají k:
- Příprava dat na trénování modelu
- Použijte importovaný model ve formátu TensorFlow nebo ONNX.
- Po předání dat po dokončení procesu modelem.
Transformace v této příručce vracejí třídy, které implementují rozhraní IEstimator . Transformace dat je možné zřetězí dohromady. Každá transformace očekává a vytváří data konkrétních typů a formátů, které jsou uvedeny v propojené referenční dokumentaci.
Některé transformace dat vyžadují trénovací data k výpočtu jejich parametrů. Například: NormalizeMeanVariance transformátor vypočítá střední hodnotu a odchylku trénovacích dat během Fit() operace a použije tyto parametry v Transform() operaci.
Jiné transformace dat nevyžadují trénovací data. Například: ConvertToGrayscale Transformace může provést Transform() operaci, aniž by se během Fit() operace zobrazila žádná trénovací data.
Mapování a seskupení sloupců
| Transformace |
Definice |
ONNX exportovatelný |
| Concatenate |
Zřetězení jednoho nebo více vstupních sloupců do nového výstupního sloupce |
Ano |
| CopyColumns |
Kopírování a přejmenování jednoho nebo více vstupních sloupců |
Ano |
| DropColumns |
Přetažení jednoho nebo více vstupních sloupců |
Ano |
| SelectColumns |
Vyberte jeden nebo více sloupců, které chcete zachovat ze vstupních dat. |
Ano |
Normalizace a škálování
| Transformace |
Definice |
ONNX exportovatelný |
| NormalizeMeanVariance |
Odečíst střední hodnoty (trénovacích dat) a vydělit odchylkou (trénovacích dat) |
Ano |
| NormalizeLogMeanVariance |
Normalizovat na základě logaritmu trénovacích dat |
Ano |
| NormalizeLpNorm |
Škálujte vstupní vektory podle jejich lp-norm, kde p je 1, 2 nebo nekonečno. Výchozí hodnota pro normu l2 (Euclidean distance) |
Ano |
| NormalizeGlobalContrast |
Měřítko každé hodnoty v řádku odečtením střední hodnoty dat řádku a rozdělením směrodatné odchylky nebo l2-normou (dat řádků) a vynásobením konfigurovatelným měřítkem (výchozí hodnota 2) |
Ano |
| NormalizeBinning |
Přiřaďte vstupní hodnotu indexu přihrádky a vydělte počtem intervalů hodnotu float mezi 0 a 1. Hranice přihrádky se počítají tak, aby rovnoměrně distribuovaly trénovací data mezi intervaly. |
Ano |
| NormalizeSupervisedBinning |
Přiřazení vstupní hodnoty do intervalu na základě jeho korelace se sloupcem popisku |
Ano |
| NormalizeMinMax |
Škálování vstupu pomocí rozdílu mezi minimální a maximální hodnotou v trénovacích datech |
Ano |
| NormalizeRobustScaling |
Škálujte každou hodnotu pomocí statistik, které jsou robustní pro odlehlé hodnoty, které budou data zacentrovat kolem 0 a škálují data podle rozsahu quantile. |
Ano |
Převody mezi datovými typy
| Transformace |
Definice |
ONNX exportovatelný |
| ConvertType |
Převod typu vstupního sloupce na nový typ |
Ano |
| MapValue |
Mapování hodnot na klíče (kategorie) na základě zadaného slovníku mapování |
Ne |
| MapValueToKey |
Mapování hodnot na klíče (kategorie) vytvořením mapování ze vstupních dat |
Ano |
| MapKeyToValue |
Převod klíčů zpět na původní hodnoty |
Ano |
| MapKeyToVector |
Převod klíčů zpět na vektory původních hodnot |
Ano |
| MapKeyToBinaryVector |
Převod klíčů zpět na binární vektor původních hodnot |
Ne |
| Hash |
Hash hodnoty ve vstupním sloupci |
Ano |
Transformace textu
| Transformace |
Definice |
ONNX exportovatelný |
| FeaturizeText |
Transformace textového sloupce na plovoucí pole normalizovaných ngramů a počtu znaků |
Ne |
| TokenizeIntoWords |
Rozdělení jednoho nebo více textových sloupců na jednotlivá slova |
Ano |
| TokenizeIntoCharactersAsKeys |
Rozdělení jednoho nebo více textových sloupců na jednotlivé znaky nad sadou témat |
Ano |
| NormalizeText |
Změna velikosti písmen, odebrání diakritických značek, interpunkčních značek a čísel |
Ano |
| ProduceNgrams |
Transformovat textový sloupec na sáček s počty ngramů (posloupnosti po sobě jdoucích slov) |
Ano |
| ProduceWordBags |
Transformace textového sloupce na sáček s počty vektorů ngramů |
Ano |
| ProduceHashedNgrams |
Transformace textového sloupce na vektor hodnot hashovaných počtů ngramů |
Ne |
| ProduceHashedWordBags |
Transformace textového sloupce na tašku s počtem ngramů s hodnotou hash |
Ano |
| RemoveDefaultStopWords |
Odebrání výchozích zarážek pro zadaný jazyk ze vstupních sloupců |
Ano |
| RemoveStopWords |
Odebere zadaná slova stop ze vstupních sloupců. |
Ano |
| LatentDirichletAllocation |
Transformace dokumentu (reprezentované jako vektor plovoucích hodnot) na vektor plovoucích hodnot nad sadou témat |
Ano |
| ApplyWordEmbedding |
Převod vektorů textových tokenů na vektory vět pomocí předem natrénovaného modelu |
Ano |
| Transformace |
Definice |
ONNX exportovatelný |
| DetectAnomalyBySrCnn |
Detekce anomálií ve vstupních datech časových řad pomocí algoritmu Spectral Rezidua (SR) |
Ne |
| DetectChangePointBySsa |
Detekce bodů změn v datech časových řad pomocí analýzy jednotného spektra (SSA) |
Ne |
| DetectIidChangePoint |
Detekce bodů změn v datech časových řad nezávislých a identických distribuovaných (IID) pomocí odhadů hustoty adaptivního jádra a skóre martingale |
Ne |
| ForecastBySsa |
Prognózování dat časových řad pomocí analýzy jednotného spektra (SSA) |
Ne |
| DetectSpikeBySsa |
Detekce špiček v datech časových řad pomocí analýzy jednotného spektra (SSA) |
Ne |
| DetectIidSpike |
Detekce špiček v datech nezávislých a identických časových řad (IID) pomocí odhadů hustoty adaptivního jádra a skóre martingale |
Ne |
| DetectEntireAnomalyBySrCnn |
Pomocí algoritmu SRCNN detekujte anomálie pro celá vstupní data. |
Ne |
| DetectSeasonality |
Zjištění sezónnosti pomocí fourierové analýzy |
Ne |
| LocalizeRootCause |
Lokalizuje původní příčinu vstupu časové řady pomocí algoritmu rozhodovacího stromu. |
Ne |
| LocalizeRootCauses |
Lokalizuje původní příčiny vstupu řady. |
Ne |
Chybějící hodnoty
| Transformace |
Definice |
ONNX exportovatelný |
| IndicateMissingValues |
Vytvořte nový logický výstupní sloupec, jehož hodnota je true, pokud chybí hodnota ve vstupním sloupci. |
Ano |
| ReplaceMissingValues |
Vytvořte nový výstupní sloupec, jehož hodnota je nastavená na výchozí hodnotu, pokud hodnota ve vstupním sloupci chybí, a jinak vstupní hodnotu. |
Ano |
Výběr součástí
| Transformace |
Definice |
ONNX exportovatelný |
| ApproximatedKernelMap |
Namapujte každý vstupní vektor na prostor s nižší dimenzí funkcí, kde vnitřní produkty přibližují funkci jádra, aby se funkce mohly použít jako vstupy lineárních algoritmů. |
Ne |
| ProjectToPrincipalComponents |
Snižte rozměry vektoru vstupní funkce použitím algoritmu analýzy hlavní komponenty. |
|
| Transformace |
Definice |
ONNX exportovatelný |
| Platt(String, String, String) |
Transformuje binární klasifikátor nezpracované skóre na pravděpodobnost třídy pomocí logistické regrese s parametry odhadovanými pomocí trénovacích dat. |
Ano |
| Platt(Double, Double, String) |
Transformuje binární klasifikátor nezpracované skóre na pravděpodobnost třídy pomocí logistické regrese s pevnými parametry. |
Ano |
| Naive |
Transformuje binární klasifikátor nezpracované skóre na pravděpodobnost třídy přiřazením skóre do intervalů a výpočet pravděpodobnosti na základě rozdělení mezi intervaly. |
Ano |
| Isotonic |
Transformuje binární klasifikátor nezpracované skóre na pravděpodobnost třídy přiřazením skóre do intervalů, kde pozice hranic a velikost intervalů se odhadují pomocí trénovacích dat. |
Ne |
| Transformace |
Definice |
ONNX exportovatelný |
| ApplyOnnxModel |
Transformace vstupních dat pomocí importovaného modelu ONNX |
Ne |
| LoadTensorFlowModel |
Transformace vstupních dat pomocí importovaného modelu TensorFlow |
Ne |
| Transformace |
Definice |
ONNX exportovatelný |
| FilterByCustomPredicate |
Zahodí řádky, ve kterých zadaný predikát vrátí hodnotu true. |
Ne |
| FilterByStatefulCustomPredicate |
Zahodí řádky, ve kterých zadaný predikát vrátí hodnotu true, ale umožňuje zadaný stav. |
Ne |
| CustomMapping |
Transformace existujících sloupců na nové pomocí uživatelem definovaného mapování |
Ne |
| Expression |
Použití výrazu k transformaci sloupců na nové |
Ne |