Az adatátalakítások a következőkre használhatók:
- Adatok előkészítése a modell betanításához.
- Importált modell alkalmazása TensorFlow vagy ONNX formátumban.
- A modellen keresztüli továbbítás után az adatok feldolgozása után.
Az útmutatóban szereplő átalakítások az IEstimator interfészt implementáló osztályokat ad vissza. Az adatátalakítások összekapcsolhatók. Mindegyik átalakítás a csatolt referenciadokumentációban meghatározott típusú és formátumú adatokat vár el és állít elő.
Egyes adatátalakításokhoz betanítási adatokra van szükség a paraméterek kiszámításához. Például: a NormalizeMeanVariance transzformátor kiszámítja a betanítási adatok középértékét és varianciáját a Fit() művelet során, és ezeket a paramétereket használja a Transform() műveletben.
Más adatátalakításokhoz nincs szükség betanítási adatokra. Például: az ConvertToGrayscale átalakítás anélkül hajthatja végre a Transform() műveletet, hogy betanítási adatokat lát volna a Fit() művelet során.
Oszlopleképezés és csoportosítás
| Átalakítás |
Definíció |
ONNX exportálható |
| Concatenate |
Egy vagy több bemeneti oszlop összefűzése új kimeneti oszlopba |
Igen |
| CopyColumns |
Egy vagy több bemeneti oszlop másolása és átnevezése |
Igen |
| DropColumns |
Egy vagy több bemeneti oszlop elvetése |
Igen |
| SelectColumns |
Jelöljön ki egy vagy több oszlopot a bemeneti adatoktól való megtartásához |
Igen |
Normalizálás és skálázás
| Átalakítás |
Definíció |
ONNX exportálható |
| NormalizeMeanVariance |
Kivonja a középértéket (a betanítási adatokból), és osztja el a szórással (a betanítási adatokkal) |
Igen |
| NormalizeLogMeanVariance |
Normalizálás a betanítási adatok logaritmusa alapján |
Igen |
| NormalizeLpNorm |
A bemeneti vektorok lp-norma szerint skálázhatók, ahol p 1, 2 vagy végtelen. Az l2 (euklideszi távolság) norma alapértelmezett értéke |
Igen |
| NormalizeGlobalContrast |
Skálázza egy sorban az egyes értékeket úgy, hogy kivonja a soradatok középértékét, és elosztja a szórással vagy az l2-normával (a soradatok alapján), és szorozza meg egy konfigurálható skálázási tényezővel (alapértelmezett 2) |
Igen |
| NormalizeBinning |
Rendelje hozzá a bemeneti értéket egy raktárhelyindexhez, és ossza el a tárolók számával, hogy 0 és 1 közötti lebegőpontos értéket állítson elő. A rendszer úgy számítja ki a tárolók határait, hogy egyenletesen eloszthassa a betanítási adatokat a tárolók között |
Igen |
| NormalizeSupervisedBinning |
A bemeneti érték hozzárendelése egy tárolóhoz a címkeoszlopmal való korrelációja alapján |
Igen |
| NormalizeMinMax |
A bemenet skálázása a betanítási adatok minimális és maximális értékei közötti különbség alapján |
Igen |
| NormalizeRobustScaling |
Skálázza az egyes értékeket olyan statisztikákkal, amelyek robusztusak a kiugró értékekhez, amelyek 0 körül fogják központosíteni az adatokat, és az adatokat a kvantilis tartomány szerint skálázják. |
Igen |
Adattípusok közötti átalakítások
| Átalakítás |
Definíció |
ONNX exportálható |
| ConvertType |
Bemeneti oszlop típusának átalakítása új típussá |
Igen |
| MapValue |
Értékek leképezése kulcsokra (kategóriákra) a megadott leképezési szótár alapján |
Nem |
| MapValueToKey |
Értékek leképezése kulcsokhoz (kategóriákhoz) a bemeneti adatokból történő leképezés létrehozásával |
Igen |
| MapKeyToValue |
Kulcsok visszaállítása az eredeti értékekre |
Igen |
| MapKeyToVector |
Kulcsok visszaállítása eredeti értékek vektoraivá |
Igen |
| MapKeyToBinaryVector |
Kulcsok visszaállítása eredeti értékek bináris vektorává |
Nem |
| Hash |
Hashold az értéket a bemeneti oszlopban. |
Igen |
Szövegátalakítások
| Átalakítás |
Definíció |
ONNX exportálható |
| FeaturizeText |
Szövegoszlop átalakítása normalizált ngramok és karakter-grammok számának lebegőpontos tömbjévé |
Nem |
| TokenizeIntoWords |
Egy vagy több szövegoszlop felosztása egyes szavakra |
Igen |
| TokenizeIntoCharactersAsKeys |
Egy vagy több szövegoszlop felosztása különálló karakterekre témakörök halmaza fölé lebegve |
Igen |
| NormalizeText |
Kis- és nagybetűk módosítása, diakritikus jelek, írásjelek és számok eltávolítása |
Igen |
| ProduceNgrams |
Szövegoszlop átalakítása ngramok számának zsákjába (egymást követő szavak sorozatai) |
Igen |
| ProduceWordBags |
Szövegoszlop átalakítása ngramok számának egy zacskójába |
Igen |
| ProduceHashedNgrams |
Szövegoszlop átalakítása kivonatolt ngramok számának vektorává |
Nem |
| ProduceHashedWordBags |
Szövegoszlop átalakítása kivonatolt ngramok számává |
Igen |
| RemoveDefaultStopWords |
A megadott nyelv alapértelmezett leállítószavainak eltávolítása a bemeneti oszlopokból |
Igen |
| RemoveStopWords |
A megadott stop szavak eltávolítása a bemeneti oszlopokból |
Igen |
| LatentDirichletAllocation |
Dokumentum átalakítása (lebegőpontos vektorként) lebegőpontos vektorsá egy témakörcsoporton keresztül |
Igen |
| ApplyWordEmbedding |
Szöveges jogkivonatok vektorainak konvertálása mondatvektorokká előre betanított modell használatával |
Igen |
| Átalakítás |
Definíció |
ONNX exportálható |
| DetectAnomalyBySrCnn |
A bemeneti idősor-adatok rendellenességeinek észlelése spektrális reziduális (SR) algoritmussal |
Nem |
| DetectChangePointBySsa |
Változáspontok észlelése idősoradatokban szinguláris spektrumelemzéssel (SSA) |
Nem |
| DetectIidChangePoint |
Változáspontok észlelése független és azonos eloszlású (IID) idősoradatokban adaptív kernelsűrűség-becslések és martingale-pontszámok használatával |
Nem |
| ForecastBySsa |
Idősoradatok előrejelzése szinguláris spektrumelemzéssel (SSA) |
Nem |
| DetectSpikeBySsa |
Az idősoradatok csúcsainak észlelése szinguláris spektrumelemzéssel (SSA) |
Nem |
| DetectIidSpike |
A független és azonos eloszlású (IID) idősoradatok kiugró értékeinek észlelése adaptív kernelsűrűség-becslésekkel és martingale-pontszámokkal |
Nem |
| DetectEntireAnomalyBySrCnn |
A teljes bemeneti adat rendellenességeinek észlelése az SRCNN-algoritmus használatával. |
Nem |
| DetectSeasonality |
A szezonalitás észlelése Fourier-elemzéssel. |
Nem |
| LocalizeRootCause |
Az idősorok bemenetének kiváltó okát egy döntési fa algoritmus használatával honosítja. |
Nem |
| LocalizeRootCauses |
Honosítja a kapcsolatsorozat bemenetének kiváltó okait. |
Nem |
Hiányzó értékek
| Átalakítás |
Definíció |
ONNX exportálható |
| IndicateMissingValues |
Hozzon létre egy új logikai kimeneti oszlopot, amelynek értéke igaz, ha a bemeneti oszlop értéke hiányzik |
Igen |
| ReplaceMissingValues |
Hozzon létre egy új kimeneti oszlopot, amelynek értéke alapértelmezett értékre van állítva, ha az érték hiányzik a bemeneti oszlopból, és a bemeneti érték egyébként |
Igen |
Szolgáltatás kiválasztása
| Átalakítás |
Definíció |
ONNX exportálható |
| ApproximatedKernelMap |
Az egyes bemeneti vektorok leképezése egy alacsonyabb dimenziójú funkciótérre, ahol a belső termékek megközelítik a kernelfüggvényeket, hogy a jellemzők a lineáris algoritmusok bemeneteiként használhatók legyenek |
Nem |
| ProjectToPrincipalComponents |
Csökkentse a bemeneti funkcióvektor dimenzióit a Fő összetevő-elemzési algoritmus alkalmazásával |
|
| Átalakítás |
Definíció |
ONNX exportálható |
| CalculateFeatureContribution |
A funkcióvektor egyes elemeihez tartozó hozzájárulási pontszámok kiszámítása |
Nem |
| Átalakítás |
Definíció |
ONNX exportálható |
| Platt(String, String, String) |
Egy bináris osztályozó nyers pontszámát osztály valószínűségévé alakítja logisztikai regresszióval, a betanítási adatok alapján becsült paraméterekkel |
Igen |
| Platt(Double, Double, String) |
A bináris osztályozó nyers pontszámát osztály valószínűségévé alakítja logisztikai regresszióval rögzített paraméterekkel |
Igen |
| Naive |
A bináris osztályozó nyers pontszámát osztály valószínűséggé alakítja úgy, hogy pontszámokat rendel a tárolókhoz, és kiszámítja a valószínűséget a tárolók közötti eloszlás alapján |
Igen |
| Isotonic |
A bináris osztályozó nyers pontszámát osztály valószínűségévé alakítja úgy, hogy pontértékeket rendel a tárolókhoz, ahol a betanítási adatok alapján megbecsülik a határok pozícióját és a tárolók méretét |
Nem |
| Átalakítás |
Definíció |
ONNX exportálható |
| ApplyOnnxModel |
A bemeneti adatok átalakítása importált ONNX-modellel |
Nem |
| LoadTensorFlowModel |
A bemeneti adatok átalakítása importált TensorFlow-modellel |
Nem |
| Átalakítás |
Definíció |
ONNX exportálható |
| FilterByCustomPredicate |
Elveti azokat a sorokat, ahol egy adott predikátum igaz értéket ad vissza. |
Nem |
| FilterByStatefulCustomPredicate |
Elveti azokat a sorokat, ahol egy adott predikátum igaz értéket ad vissza, de lehetővé teszi egy adott állapot megadását. |
Nem |
| CustomMapping |
Meglévő oszlopok átalakítása újakra felhasználó által definiált leképezéssel |
Nem |
| Expression |
Kifejezés alkalmazása oszlopok újakká alakításához |
Nem |