Adatátalakítások

Az adatátalakítások a következőkre használhatók:

  • adatok előkészítése a modell betanításához
  • importált modell alkalmazása TensorFlow vagy ONNX formátumban
  • folyamat utáni adatok, miután a modellen keresztül át lettek adva

Az útmutatóban szereplő átalakítások az IEstimator interfészt implementáló osztályokat ad vissza. Az adatátalakítások összekapcsolhatók. Mindegyik átalakítás a csatolt referenciadokumentációban meghatározott típusú és formátumú adatokat vár el és állít elő.

Egyes adatátalakításokhoz betanítási adatokra van szükség a paraméterek kiszámításához. Például: a NormalizeMeanVariance transzformátor kiszámítja a betanítási adatok középértékét és varianciáját a Fit() művelet során, és ezeket a paramétereket használja a Transform() műveletben.

Más adatátalakításokhoz nincs szükség betanítási adatokra. Például: az ConvertToGrayscale átalakítás anélkül hajthatja végre a Transform() műveletet, hogy betanítási adatokat lát volna a Fit() művelet során.

Oszlopleképezés és csoportosítás

Átalakítás Definíció ONNX exportálható
Concatenate Egy vagy több bemeneti oszlop összefűzése új kimeneti oszlopba Igen
CopyColumns Egy vagy több bemeneti oszlop másolása és átnevezése Igen
DropColumns Egy vagy több bemeneti oszlop elvetése Igen
SelectColumns Jelöljön ki egy vagy több oszlopot a bemeneti adatoktól való megtartásához Igen

Normalizálás és skálázás

Átalakítás Definíció ONNX exportálható
NormalizeMeanVariance Kivonja a középértéket (a betanítási adatokból), és osztja el a szórással (a betanítási adatokkal) Igen
NormalizeLogMeanVariance Normalizálás a betanítási adatok logaritmusa alapján Igen
NormalizeLpNorm A bemeneti vektorok lp-norma szerint skálázhatók, ahol p 1, 2 vagy végtelen. Az l2 (euklideszi távolság) norma alapértelmezett értéke Igen
NormalizeGlobalContrast Skálázza egy sorban az egyes értékeket úgy, hogy kivonja a soradatok középértékét, és elosztja a szórással vagy az l2-normával (a soradatok alapján), és szorozza meg egy konfigurálható skálázási tényezővel (alapértelmezett 2) Igen
NormalizeBinning Rendelje hozzá a bemeneti értéket egy raktárhelyindexhez, és ossza el a tárolók számával, hogy 0 és 1 közötti lebegőpontos értéket állítson elő. A rendszer úgy számítja ki a tárolók határait, hogy egyenletesen eloszthassa a betanítási adatokat a tárolók között Igen
NormalizeSupervisedBinning A bemeneti érték hozzárendelése egy tárolóhoz a címkeoszlopmal való korrelációja alapján Igen
NormalizeMinMax A bemenet skálázása a betanítási adatok minimális és maximális értékei közötti különbség alapján Igen
NormalizeRobustScaling Skálázza az egyes értékeket olyan statisztikákkal, amelyek robusztusak a kiugró értékekhez, amelyek 0 körül fogják központosíteni az adatokat, és az adatokat a kvantilis tartomány szerint skálázják. Igen

Adattípusok közötti átalakítások

Átalakítás Definíció ONNX exportálható
ConvertType Bemeneti oszlop típusának átalakítása új típussá Igen
MapValue Értékek leképezése kulcsokra (kategóriákra) a megadott leképezési szótár alapján Nem
MapValueToKey Értékek leképezése kulcsokhoz (kategóriákhoz) a bemeneti adatokból történő leképezés létrehozásával Igen
MapKeyToValue Kulcsok visszaállítása az eredeti értékekre Igen
MapKeyToVector Kulcsok visszaállítása eredeti értékek vektoraivá Igen
MapKeyToBinaryVector Kulcsok visszaállítása eredeti értékek bináris vektorává Nem
Hash Hash the value in the input column Igen

Szövegátalakítások

Átalakítás Definíció ONNX exportálható
FeaturizeText Szövegoszlop átalakítása normalizált ngramok és karakter-grammok számának lebegőpontos tömbjévé Nem
TokenizeIntoWords Egy vagy több szövegoszlop felosztása egyes szavakra Igen
TokenizeIntoCharactersAsKeys Egy vagy több szövegoszlop felosztása különálló karakterekre témakörök halmaza fölé lebegve Igen
NormalizeText Kis- és nagybetűk módosítása, diakritikus jelek, írásjelek és számok eltávolítása Igen
ProduceNgrams Szövegoszlop átalakítása ngramok számának zsákjába (egymást követő szavak sorozatai) Igen
ProduceWordBags Szövegoszlop átalakítása ngramok számának egy zacskójába Igen
ProduceHashedNgrams Szövegoszlop átalakítása kivonatolt ngramok számának vektorává Nem
ProduceHashedWordBags Szövegoszlop átalakítása kivonatolt ngramok számává Igen
RemoveDefaultStopWords A megadott nyelv alapértelmezett leállítószavainak eltávolítása a bemeneti oszlopokból Igen
RemoveStopWords A megadott stop szavak eltávolítása a bemeneti oszlopokból Igen
LatentDirichletAllocation Dokumentum átalakítása (lebegőpontos vektorként) lebegőpontos vektorsá egy témakörcsoporton keresztül Igen
ApplyWordEmbedding Szöveges jogkivonatok vektorainak konvertálása mondatvektorokká előre betanított modellel Igen

Képátalakítások

Átalakítás Definíció ONNX exportálható
ConvertToGrayscale Kép átalakítása szürkeárnyalatossá Nem
ConvertToImage Képpontok vektorának konvertálása ImageDataViewType Nem
ExtractPixels Képpontok konvertálása bemeneti képből számok vektorává Nem
LoadImages Képek betöltése mappából a memóriába Nem
LoadRawImageBytes Betölti a nyers bájtok képeit egy új oszlopba. Nem
ResizeImages Képek átméretezése Nem
DnnFeaturizeImage Előre betanított mély neurális hálózat (DNN) modell alkalmazása a bemeneti kép funkcióvektorná alakításához Nem

Kategorikus adatátalakítások

Átalakítás Definíció ONNX exportálható
OneHotEncoding Egy vagy több szöveges oszlop átalakítása egyszerű kódolású vektorokká Igen
OneHotHashEncoding Egy vagy több szöveges oszlop konvertálása kivonatalapú, gyakori elérésű kódolású vektorokká Nem

Idősor adatátalakításai

Átalakítás Definíció ONNX exportálható
DetectAnomalyBySrCnn A bemeneti idősor-adatok rendellenességeinek észlelése spektrális reziduális (SR) algoritmussal Nem
DetectChangePointBySsa Változáspontok észlelése idősoradatokban szinguláris spektrumelemzéssel (SSA) Nem
DetectIidChangePoint Változáspontok észlelése független és azonos eloszlású (IID) idősoradatokban adaptív kernelsűrűség-becslések és martingale-pontszámok használatával Nem
ForecastBySsa Idősoradatok előrejelzése szinguláris spektrumelemzéssel (SSA) Nem
DetectSpikeBySsa Az idősoradatok csúcsainak észlelése szinguláris spektrumelemzéssel (SSA) Nem
DetectIidSpike A független és azonos eloszlású (IID) idősoradatok kiugró értékeinek észlelése adaptív kernelsűrűség-becslésekkel és martingale-pontszámokkal Nem
DetectEntireAnomalyBySrCnn A teljes bemeneti adat rendellenességeinek észlelése az SRCNN-algoritmus használatával. Nem
DetectSeasonality A szezonalitás észlelése Fourier-elemzéssel. Nem
LocalizeRootCause Az idősorok bemenetének kiváltó okát egy döntési fa algoritmus használatával honosítja. Nem
LocalizeRootCauses Honosítja a kapcsolatsorozat bemenetének kiváltó okait. Nem

Hiányzó értékek

Átalakítás Definíció ONNX exportálható
IndicateMissingValues Hozzon létre egy új logikai kimeneti oszlopot, amelynek értéke igaz, ha a bemeneti oszlop értéke hiányzik Igen
ReplaceMissingValues Hozzon létre egy új kimeneti oszlopot, amelynek értéke alapértelmezett értékre van állítva, ha az érték hiányzik a bemeneti oszlopból, és a bemeneti érték egyébként Igen

Szolgáltatás kiválasztása

Átalakítás Definíció ONNX exportálható
SelectFeaturesBasedOnCount Olyan szolgáltatások kiválasztása, amelyek nem alapértelmezett értékei nagyobbak a küszöbértéknél Igen
SelectFeaturesBasedOnMutualInformation Válassza ki azokat a funkciókat, amelyektől a címkeoszlop adatai a leginkább függenek Igen

Funkcióátalakítások

Átalakítás Definíció ONNX exportálható
ApproximatedKernelMap Az egyes bemeneti vektorok leképezése egy alacsonyabb dimenziójú funkciótérre, ahol a belső termékek megközelítik a kernelfüggvényeket, hogy a jellemzők a lineáris algoritmusok bemeneteiként használhatók legyenek Nem
ProjectToPrincipalComponents Csökkentse a bemeneti funkcióvektor dimenzióit a Fő összetevő-elemzési algoritmus alkalmazásával

Magyarázhatósági átalakítások

Átalakítás Definíció ONNX exportálható
CalculateFeatureContribution A funkcióvektor egyes elemeihez tartozó hozzájárulási pontszámok kiszámítása Nem

Kalibrációs átalakítások

Átalakítás Definíció ONNX exportálható
Platt(String, String, String) Egy bináris osztályozó nyers pontszámát osztály valószínűségévé alakítja logisztikai regresszióval, a betanítási adatok alapján becsült paraméterekkel Igen
Platt(Double, Double, String) A bináris osztályozó nyers pontszámát osztály valószínűségévé alakítja logisztikai regresszióval rögzített paraméterekkel Igen
Naive A bináris osztályozó nyers pontszámát osztály valószínűséggé alakítja úgy, hogy pontszámokat rendel a tárolókhoz, és kiszámítja a valószínűséget a tárolók közötti eloszlás alapján Igen
Isotonic A bináris osztályozó nyers pontszámát osztály valószínűségévé alakítja úgy, hogy pontértékeket rendel a tárolókhoz, ahol a betanítási adatok alapján megbecsülik a határok pozícióját és a tárolók méretét Nem

Mélytanulási átalakítások

Átalakítás Definíció ONNX exportálható
ApplyOnnxModel A bemeneti adatok átalakítása importált ONNX-modellel Nem
LoadTensorFlowModel A bemeneti adatok átalakítása importált TensorFlow-modellel Nem

Egyéni átalakítások

Átalakítás Definíció ONNX exportálható
FilterByCustomPredicate Elveti azokat a sorokat, ahol egy adott predikátum igaz értéket ad vissza. Nem
FilterByStatefulCustomPredicate Elveti azokat a sorokat, ahol egy adott predikátum igaz értéket ad vissza, de lehetővé teszi egy adott állapot megadását. Nem
CustomMapping Meglévő oszlopok átalakítása újakra felhasználó által definiált leképezéssel Nem
Expression Kifejezés alkalmazása oszlopok újakká alakításához Nem