Sdílet prostřednictvím


Transformace dat

Transformace dat se používají k:

  • Příprava dat na trénování modelu
  • Použijte importovaný model ve formátu TensorFlow nebo ONNX.
  • Zpracovat data po jejich průchodu modelem.

Transformace v této příručce vracejí třídy, které implementují rozhraní IEstimator . Transformace dat je možné zřetězit. Každá transformace očekává a vytváří data konkrétních typů a formátů, které jsou uvedeny v propojené referenční dokumentaci.

Některé transformace dat vyžadují trénovací data k výpočtu jejich parametrů. Například: NormalizeMeanVariance transformátor vypočítá střední hodnotu a odchylku trénovacích dat během Fit() operace a použije tyto parametry v Transform() operaci.

Jiné transformace dat nevyžadují trénovací data. Například: transformace ConvertToGrayscale může provést Transform() operaci, aniž by byla během Fit() operace použita jakákoli trénovací data.

Mapování a seskupení sloupců

Přeměna Definice ONNX exportovatelný
Concatenate Zřetězení jednoho nebo více vstupních sloupců do nového výstupního sloupce Ano
CopyColumns Kopírování a přejmenování jednoho nebo více vstupních sloupců Ano
DropColumns Odstranění jednoho nebo více vstupních sloupců Ano
SelectColumns Vyberte jeden nebo více sloupců, které chcete zachovat ze vstupních dat. Ano

Normalizace a škálování

Přeměna Definice ONNX exportovatelný
NormalizeMeanVariance Odečtěte průměr (trénovacích dat) a vydělte rozptylem (trénovacích dat) Ano
NormalizeLogMeanVariance Normalizovat na základě logaritmu trénovacích dat Ano
NormalizeLpNorm Škálujte vstupní vektory podle jejich lp-norm, kde p je 1, 2 nebo nekonečno. Výchozí hodnota pro normu l2 (Euklidovská vzdálenost) Ano
NormalizeGlobalContrast Upravte každou hodnotu v řádku odečtením průměru dat řádku a vydělením buď směrodatnou odchylkou nebo l2-normou těchto dat, a nakonec násobte konfigurovatelným měřítkem (standardně 2). Ano
NormalizeBinning Přiřaďte vstupní hodnotu indexu binu a vydělte ji počtem binů, abyste získali desetinnou hodnotu mezi 0 a 1. Hranice sektorů (přihrádek) se počítají tak, aby data pro trénování byla rovnoměrně rozdělena mezi sektory. Ano
NormalizeSupervisedBinning Přiřaďte vstupní hodnotu do kategorie na základě její korelace se sloupcem štítku Ano
NormalizeMinMax Škálování vstupu pomocí rozdílu mezi minimální a maximální hodnotou v trénovacích datech Ano
NormalizeRobustScaling Škálujte každou hodnotu pomocí statistik, které jsou robustní vůči odlehlým hodnotám a zacentrují data kolem 0, přičemž je škálují podle rozsahu kvantilu. Ano

Převody mezi datovými typy

Přeměna Definice ONNX exportovatelný
ConvertType Převod typu vstupního sloupce na nový typ Ano
MapValue Mapování hodnot na klíče (kategorie) na základě zadaného slovníku mapování Ne
MapValueToKey Mapování hodnot na klíče (kategorie) vytvořením mapování ze vstupních dat Ano
MapKeyToValue Převod klíčů zpět na původní hodnoty Ano
MapKeyToVector Převod klíčů zpět na vektory původních hodnot Ano
MapKeyToBinaryVector Převod klíčů zpět na binární vektor původních hodnot Ne
Hash Hash hodnoty ve vstupním sloupci Ano

Transformace textu

Přeměna Definice ONNX exportovatelný
FeaturizeText Transformace textového sloupce na plovoucí pole normalizovaných ngramů a počtu znaků Ne
TokenizeIntoWords Rozdělení jednoho nebo více textových sloupců na jednotlivá slova Ano
TokenizeIntoCharactersAsKeys Rozdělení jednoho nebo více textových sloupců na jednotlivé znaky, které se vztahují k sadě témat. Ano
NormalizeText Změna velikosti písmen, odebrání diakritických značek, interpunkčních značek a čísel Ano
ProduceNgrams Transformovat textový sloupec na množinu s počty n-gramů (posloupnosti po sobě jdoucích slov) Ano
ProduceWordBags Transformace textového sloupce na sáček s počty ngramových vektorů Ano
ProduceHashedNgrams Transformace textového sloupce na vektor hodnot hashovaných počtů ngramů Ne
ProduceHashedWordBags Převod textového sloupce na množinu počtů hašovaných n-gramů Ano
RemoveDefaultStopWords Odstraňte výchozí stop slova pro zadaný jazyk ze vstupních sloupců Ano
RemoveStopWords Odebere zadaná slova stop ze vstupních sloupců. Ano
LatentDirichletAllocation Transformace dokumentu (reprezentované jako vektor plovoucích hodnot) na vektor plovoucích hodnot nad sadou témat Ano
ApplyWordEmbedding Převod vektorů textových tokenů na vektory vět pomocí předem natrénovaného modelu Ano

Transformace obrázků

Přeměna Definice ONNX exportovatelný
ConvertToGrayscale Převod obrázku do odstínů šedi Ne
ConvertToImage Převedení vektoru pixelů na ImageDataViewType Ne
ExtractPixels Převod pixelů ze vstupního obrázku na vektor čísel Ne
LoadImages Načtení obrázků ze složky do paměti Ne
LoadRawImageBytes Načte obrázky nezpracovaných bajtů do nového sloupce. Ne
ResizeImages Změna velikosti obrázků Ne
DnnFeaturizeImage Použije předem natrénovaný model hluboké neurální sítě (DNN) k transformaci vstupního obrázku na vektor funkce. Ne

Kategorické transformace dat

Přeměna Definice ONNX exportovatelný
OneHotEncoding Převeďte jeden nebo více textových sloupců na one-hot kódované vektory Ano
OneHotHashEncoding Převod jednoho nebo více textových sloupců na vektory s kódováním hash typu 1-hot Ne

Transformace dat časových řad

Transformace Definice ONNX exportovatelný
DetectAnomalyBySrCnn Odhalení anomálií ve vstupních datech časových řad pomocí algoritmu Reziduální spektra (SR) Ne
DetectChangePointBySsa Detekce bodů změn v datech časových řad pomocí analýzy jednotného spektra (SSA) Ne
DetectIidChangePoint Detekce bodů změn v datech časových řad nezávislých a identicky rozdělených (IID) pomocí adaptivních odhadů hustoty jádra a martingalových skóre Ne
ForecastBySsa Prognózování dat časových řad pomocí analýzy jednotného spektra (SSA) Ne
DetectSpikeBySsa Detekce špiček v datech časových řad pomocí analýzy jednotného spektra (SSA) Ne
DetectIidSpike Detekce špiček v datech nezávisle a stejně rozdělených časových řad (IID) pomocí adaptivních odhadů hustoty jádra a skóre martingale. Ne
DetectEntireAnomalyBySrCnn Pomocí algoritmu SRCNN detekujte anomálie pro celá vstupní data. Ne
DetectSeasonality Zjištění sezónnosti pomocí fourierové analýzy Ne
LocalizeRootCause Lokalizuje původní příčinu vstupu časové řady pomocí algoritmu rozhodovacího stromu. Ne
LocalizeRootCauses Lokalizuje hlavní příčiny z vstupu časové řady. Ne

Chybějící hodnoty

Transformace Definice ONNX exportovatelný
IndicateMissingValues Vytvořte nový logický výstupní sloupec, jehož hodnota je true, pokud chybí hodnota ve vstupním sloupci. Ano
ReplaceMissingValues Vytvořte nový výstupní sloupec, jehož hodnota je nastavená na výchozí hodnotu, pokud hodnota ve vstupním sloupci chybí, a jinak vstupní hodnotu. Ano

Výběr součástí

Transformace Definice ONNX exportovatelný
SelectFeaturesBasedOnCount Výběr funkcí, jejichž jiné než výchozí hodnoty jsou větší než prahová hodnota Ano
SelectFeaturesBasedOnMutualInformation Vyberte funkce, na kterých jsou data ve sloupci popisků nejvíce závislá. Ano

Transformace funkcí

Transformuj Definice ONNX exportovatelný
ApproximatedKernelMap Namapujte každý vstupní vektor na prostor s nižší dimenzí funkcí, kde vnitřní produkty přibližují funkci jádra, aby se funkce mohly použít jako vstupy lineárních algoritmů. Ne
ProjectToPrincipalComponents Snižte rozměry vektoru vstupní funkce použitím algoritmu analýzy hlavní komponenty.

Transformace vysvětlitelnosti

Převést Definice ONNX exportovatelný
CalculateFeatureContribution Výpočet skóre příspěvku pro každý prvek vektoru funkce Ne

Kalibrační transformace

Transformace Definice ONNX exportovatelný
Platt(String, String, String) Transformuje nezpracované skóre binárního klasifikátoru na pravděpodobnost příslušnosti ke třídě pomocí logistické regrese s parametry odhadovanými podle trénovacích dat. Ano
Platt(Double, Double, String) Převádí hrubé skóre binárního klasifikátoru na pravděpodobnost třídy pomocí logistické regrese s pevně nastavenými parametry. Ano
Naive Transformuje nezpracované skóre binárního klasifikátoru na pravděpodobnost třídy tím, že přiřadí skóre do intervalů, a následně provádí výpočet pravděpodobnosti na základě rozdělení mezi těmito intervaly. Ano
Isotonic Transformuje surové skóre binárního klasifikátoru na pravděpodobnost pro určitou třídu tím, že skóre přiřazuje do intervalů; přičemž pozice hranic a velikost těchto intervalů se odhadují pomocí tréninkových dat. Ne

Transformace hlubokého učení

Přeměnit Definice ONNX exportovatelný
ApplyOnnxModel Transformace vstupních dat pomocí importovaného modelu ONNX Ne
LoadTensorFlowModel Transformace vstupních dat pomocí importovaného modelu TensorFlow Ne

Vlastní transformace

Přeměna Definice ONNX exportovatelný
FilterByCustomPredicate Zahodí řádky, ve kterých zadaný predikát vrátí hodnotu true. Ne
FilterByStatefulCustomPredicate Zahodí řádky, ve kterých zadaný predikát vrátí hodnotu true, ale umožňuje zadaný stav. Ne
CustomMapping Transformace existujících sloupců na nové pomocí uživatelem definovaného mapování Ne
Expression Použijte výraz k transformaci sloupců na nové sloupce Ne