Transformace dat se používají k:
- Příprava dat na trénování modelu
- Použijte importovaný model ve formátu TensorFlow nebo ONNX.
- Zpracovat data po jejich průchodu modelem.
Transformace v této příručce vracejí třídy, které implementují rozhraní IEstimator . Transformace dat je možné zřetězit. Každá transformace očekává a vytváří data konkrétních typů a formátů, které jsou uvedeny v propojené referenční dokumentaci.
Některé transformace dat vyžadují trénovací data k výpočtu jejich parametrů. Například: NormalizeMeanVariance transformátor vypočítá střední hodnotu a odchylku trénovacích dat během Fit() operace a použije tyto parametry v Transform() operaci.
Jiné transformace dat nevyžadují trénovací data. Například: transformace ConvertToGrayscale může provést Transform() operaci, aniž by byla během Fit() operace použita jakákoli trénovací data.
Mapování a seskupení sloupců
| Přeměna |
Definice |
ONNX exportovatelný |
| Concatenate |
Zřetězení jednoho nebo více vstupních sloupců do nového výstupního sloupce |
Ano |
| CopyColumns |
Kopírování a přejmenování jednoho nebo více vstupních sloupců |
Ano |
| DropColumns |
Odstranění jednoho nebo více vstupních sloupců |
Ano |
| SelectColumns |
Vyberte jeden nebo více sloupců, které chcete zachovat ze vstupních dat. |
Ano |
Normalizace a škálování
| Přeměna |
Definice |
ONNX exportovatelný |
| NormalizeMeanVariance |
Odečtěte průměr (trénovacích dat) a vydělte rozptylem (trénovacích dat) |
Ano |
| NormalizeLogMeanVariance |
Normalizovat na základě logaritmu trénovacích dat |
Ano |
| NormalizeLpNorm |
Škálujte vstupní vektory podle jejich lp-norm, kde p je 1, 2 nebo nekonečno. Výchozí hodnota pro normu l2 (Euklidovská vzdálenost) |
Ano |
| NormalizeGlobalContrast |
Upravte každou hodnotu v řádku odečtením průměru dat řádku a vydělením buď směrodatnou odchylkou nebo l2-normou těchto dat, a nakonec násobte konfigurovatelným měřítkem (standardně 2). |
Ano |
| NormalizeBinning |
Přiřaďte vstupní hodnotu indexu binu a vydělte ji počtem binů, abyste získali desetinnou hodnotu mezi 0 a 1. Hranice sektorů (přihrádek) se počítají tak, aby data pro trénování byla rovnoměrně rozdělena mezi sektory. |
Ano |
| NormalizeSupervisedBinning |
Přiřaďte vstupní hodnotu do kategorie na základě její korelace se sloupcem štítku |
Ano |
| NormalizeMinMax |
Škálování vstupu pomocí rozdílu mezi minimální a maximální hodnotou v trénovacích datech |
Ano |
| NormalizeRobustScaling |
Škálujte každou hodnotu pomocí statistik, které jsou robustní vůči odlehlým hodnotám a zacentrují data kolem 0, přičemž je škálují podle rozsahu kvantilu. |
Ano |
Převody mezi datovými typy
| Přeměna |
Definice |
ONNX exportovatelný |
| ConvertType |
Převod typu vstupního sloupce na nový typ |
Ano |
| MapValue |
Mapování hodnot na klíče (kategorie) na základě zadaného slovníku mapování |
Ne |
| MapValueToKey |
Mapování hodnot na klíče (kategorie) vytvořením mapování ze vstupních dat |
Ano |
| MapKeyToValue |
Převod klíčů zpět na původní hodnoty |
Ano |
| MapKeyToVector |
Převod klíčů zpět na vektory původních hodnot |
Ano |
| MapKeyToBinaryVector |
Převod klíčů zpět na binární vektor původních hodnot |
Ne |
| Hash |
Hash hodnoty ve vstupním sloupci |
Ano |
Transformace textu
| Přeměna |
Definice |
ONNX exportovatelný |
| FeaturizeText |
Transformace textového sloupce na plovoucí pole normalizovaných ngramů a počtu znaků |
Ne |
| TokenizeIntoWords |
Rozdělení jednoho nebo více textových sloupců na jednotlivá slova |
Ano |
| TokenizeIntoCharactersAsKeys |
Rozdělení jednoho nebo více textových sloupců na jednotlivé znaky, které se vztahují k sadě témat. |
Ano |
| NormalizeText |
Změna velikosti písmen, odebrání diakritických značek, interpunkčních značek a čísel |
Ano |
| ProduceNgrams |
Transformovat textový sloupec na množinu s počty n-gramů (posloupnosti po sobě jdoucích slov) |
Ano |
| ProduceWordBags |
Transformace textového sloupce na sáček s počty ngramových vektorů |
Ano |
| ProduceHashedNgrams |
Transformace textového sloupce na vektor hodnot hashovaných počtů ngramů |
Ne |
| ProduceHashedWordBags |
Převod textového sloupce na množinu počtů hašovaných n-gramů |
Ano |
| RemoveDefaultStopWords |
Odstraňte výchozí stop slova pro zadaný jazyk ze vstupních sloupců |
Ano |
| RemoveStopWords |
Odebere zadaná slova stop ze vstupních sloupců. |
Ano |
| LatentDirichletAllocation |
Transformace dokumentu (reprezentované jako vektor plovoucích hodnot) na vektor plovoucích hodnot nad sadou témat |
Ano |
| ApplyWordEmbedding |
Převod vektorů textových tokenů na vektory vět pomocí předem natrénovaného modelu |
Ano |
| Přeměna |
Definice |
ONNX exportovatelný |
| OneHotEncoding |
Převeďte jeden nebo více textových sloupců na one-hot kódované vektory |
Ano |
| OneHotHashEncoding |
Převod jednoho nebo více textových sloupců na vektory s kódováním hash typu 1-hot |
Ne |
| Transformace |
Definice |
ONNX exportovatelný |
| DetectAnomalyBySrCnn |
Odhalení anomálií ve vstupních datech časových řad pomocí algoritmu Reziduální spektra (SR) |
Ne |
| DetectChangePointBySsa |
Detekce bodů změn v datech časových řad pomocí analýzy jednotného spektra (SSA) |
Ne |
| DetectIidChangePoint |
Detekce bodů změn v datech časových řad nezávislých a identicky rozdělených (IID) pomocí adaptivních odhadů hustoty jádra a martingalových skóre |
Ne |
| ForecastBySsa |
Prognózování dat časových řad pomocí analýzy jednotného spektra (SSA) |
Ne |
| DetectSpikeBySsa |
Detekce špiček v datech časových řad pomocí analýzy jednotného spektra (SSA) |
Ne |
| DetectIidSpike |
Detekce špiček v datech nezávisle a stejně rozdělených časových řad (IID) pomocí adaptivních odhadů hustoty jádra a skóre martingale. |
Ne |
| DetectEntireAnomalyBySrCnn |
Pomocí algoritmu SRCNN detekujte anomálie pro celá vstupní data. |
Ne |
| DetectSeasonality |
Zjištění sezónnosti pomocí fourierové analýzy |
Ne |
| LocalizeRootCause |
Lokalizuje původní příčinu vstupu časové řady pomocí algoritmu rozhodovacího stromu. |
Ne |
| LocalizeRootCauses |
Lokalizuje hlavní příčiny z vstupu časové řady. |
Ne |
Chybějící hodnoty
| Transformace |
Definice |
ONNX exportovatelný |
| IndicateMissingValues |
Vytvořte nový logický výstupní sloupec, jehož hodnota je true, pokud chybí hodnota ve vstupním sloupci. |
Ano |
| ReplaceMissingValues |
Vytvořte nový výstupní sloupec, jehož hodnota je nastavená na výchozí hodnotu, pokud hodnota ve vstupním sloupci chybí, a jinak vstupní hodnotu. |
Ano |
Výběr součástí
| Transformuj |
Definice |
ONNX exportovatelný |
| ApproximatedKernelMap |
Namapujte každý vstupní vektor na prostor s nižší dimenzí funkcí, kde vnitřní produkty přibližují funkci jádra, aby se funkce mohly použít jako vstupy lineárních algoritmů. |
Ne |
| ProjectToPrincipalComponents |
Snižte rozměry vektoru vstupní funkce použitím algoritmu analýzy hlavní komponenty. |
|
| Transformace |
Definice |
ONNX exportovatelný |
| Platt(String, String, String) |
Transformuje nezpracované skóre binárního klasifikátoru na pravděpodobnost příslušnosti ke třídě pomocí logistické regrese s parametry odhadovanými podle trénovacích dat. |
Ano |
| Platt(Double, Double, String) |
Převádí hrubé skóre binárního klasifikátoru na pravděpodobnost třídy pomocí logistické regrese s pevně nastavenými parametry. |
Ano |
| Naive |
Transformuje nezpracované skóre binárního klasifikátoru na pravděpodobnost třídy tím, že přiřadí skóre do intervalů, a následně provádí výpočet pravděpodobnosti na základě rozdělení mezi těmito intervaly. |
Ano |
| Isotonic |
Transformuje surové skóre binárního klasifikátoru na pravděpodobnost pro určitou třídu tím, že skóre přiřazuje do intervalů; přičemž pozice hranic a velikost těchto intervalů se odhadují pomocí tréninkových dat. |
Ne |
| Přeměnit |
Definice |
ONNX exportovatelný |
| ApplyOnnxModel |
Transformace vstupních dat pomocí importovaného modelu ONNX |
Ne |
| LoadTensorFlowModel |
Transformace vstupních dat pomocí importovaného modelu TensorFlow |
Ne |
| Přeměna |
Definice |
ONNX exportovatelný |
| FilterByCustomPredicate |
Zahodí řádky, ve kterých zadaný predikát vrátí hodnotu true. |
Ne |
| FilterByStatefulCustomPredicate |
Zahodí řádky, ve kterých zadaný predikát vrátí hodnotu true, ale umožňuje zadaný stav. |
Ne |
| CustomMapping |
Transformace existujících sloupců na nové pomocí uživatelem definovaného mapování |
Ne |
| Expression |
Použijte výraz k transformaci sloupců na nové sloupce |
Ne |