Transformace dat

Článek
03/12/2024

Transformace dat se používají k:

příprava dat pro trénování modelu
použití importovaného modelu ve formátu TensorFlow nebo ONNX
po předání dat po zpracování modelem

Transformace v této příručce vracejí třídy, které implementují rozhraní IEstimator . Transformace dat je možné zřetězí dohromady. Každá transformace očekává a vytváří data konkrétních typů a formátů, které jsou uvedeny v propojené referenční dokumentaci.

Některé transformace dat vyžadují trénovací data k výpočtu jejich parametrů. Například: NormalizeMeanVariance transformátor vypočítá střední hodnotu a odchylku trénovacích dat během Fit() operace a použije tyto parametry v Transform() operaci.

Jiné transformace dat nevyžadují trénovací data. Například: ConvertToGrayscale Transformace může provést Transform() operaci, aniž by se během Fit() operace zobrazila žádná trénovací data.

Mapování a seskupení sloupců

Transformace	Definice	ONNX Exportable
Concatenate	Zřetězení jednoho nebo více vstupních sloupců do nového výstupního sloupce	Ano
CopyColumns	Kopírování a přejmenování jednoho nebo více vstupních sloupců	Ano
DropColumns	Přetažení jednoho nebo více vstupních sloupců	Ano
SelectColumns	Vyberte jeden nebo více sloupců, které chcete zachovat ze vstupních dat.	Ano

Normalizace a škálování

Transformace	Definice	ONNX Exportable
NormalizeMeanVariance	Odečíst střední hodnoty (trénovacích dat) a vydělit odchylkou (trénovacích dat)	Ano
NormalizeLogMeanVariance	Normalizovat na základě logaritmu trénovacích dat	Ano
NormalizeLpNorm	Škálujte vstupní vektory podle jejich lp-norm, kde p je 1, 2 nebo nekonečno. Výchozí hodnota pro normu l2 (Euclidean distance)	Ano
NormalizeGlobalContrast	Měřítko každé hodnoty v řádku odečtením střední hodnoty dat řádku a rozdělením směrodatné odchylky nebo l2-normou (dat řádků) a vynásobením konfigurovatelným měřítkem (výchozí hodnota 2)	Ano
NormalizeBinning	Přiřaďte vstupní hodnotu indexu přihrádky a vydělte počtem intervalů hodnotu float mezi 0 a 1. Hranice přihrádky se počítají tak, aby rovnoměrně distribuovaly trénovací data mezi intervaly.	Ano
NormalizeSupervisedBinning	Přiřazení vstupní hodnoty do intervalu na základě jeho korelace se sloupcem popisku	Ano
NormalizeMinMax	Škálování vstupu pomocí rozdílu mezi minimální a maximální hodnotou v trénovacích datech	Ano
NormalizeRobustScaling	Škálujte každou hodnotu pomocí statistik, které jsou robustní pro odlehlé hodnoty, které budou data zacentrovat kolem 0 a škálují data podle rozsahu quantile.	Ano

Převody mezi datovými typy

Transformace	Definice	ONNX Exportable
ConvertType	Převod typu vstupního sloupce na nový typ	Ano
MapValue	Mapování hodnot na klíče (kategorie) na základě zadaného slovníku mapování	No
MapValueToKey	Mapování hodnot na klíče (kategorie) vytvořením mapování ze vstupních dat	Ano
MapKeyToValue	Převod klíčů zpět na původní hodnoty	Ano
MapKeyToVector	Převod klíčů zpět na vektory původních hodnot	Ano
MapKeyToBinaryVector	Převod klíčů zpět na binární vektor původních hodnot	No
Hash	Hash hodnoty ve vstupním sloupci	Ano

Transformace textu

Transformace	Definice	ONNX Exportable
FeaturizeText	Transformace textového sloupce na plovoucí pole normalizovaných ngramů a počtu znaků	No
TokenizeIntoWords	Rozdělení jednoho nebo více textových sloupců na jednotlivá slova	Ano
TokenizeIntoCharactersAsKeys	Rozdělení jednoho nebo více textových sloupců na jednotlivé znaky nad sadou témat	Ano
NormalizeText	Změna velikosti písmen, odebrání diakritických značek, interpunkčních značek a čísel	Ano
ProduceNgrams	Transformovat textový sloupec na sáček s počty ngramů (posloupnosti po sobě jdoucích slov)	Ano
ProduceWordBags	Transformace textového sloupce na sáček s počty vektorů ngramů	Ano
ProduceHashedNgrams	Transformace textového sloupce na vektor hodnot hashovaných počtů ngramů	No
ProduceHashedWordBags	Transformace textového sloupce na tašku s počtem ngramů s hodnotou hash	Ano
RemoveDefaultStopWords	Odebrání výchozích zarážek pro zadaný jazyk ze vstupních sloupců	Ano
RemoveStopWords	Odebere zadaná slova stop ze vstupních sloupců.	Ano
LatentDirichletAllocation	Transformace dokumentu (reprezentované jako vektor plovoucích hodnot) na vektor plovoucích hodnot nad sadou témat	Ano
ApplyWordEmbedding	Převod vektorů textových tokenů na vektory vět pomocí předem natrénovaného modelu	Ano

Transformace obrázků

Transformace	Definice	ONNX Exportable
ConvertToGrayscale	Převod obrázku na stupně šedé	No
ConvertToImage	Převedení vektoru pixelů na ImageDataViewType	No
ExtractPixels	Převod pixelů ze vstupního obrázku na vektor čísel	No
LoadImages	Načtení obrázků ze složky do paměti	No
LoadRawImageBytes	Načte obrázky nezpracovaných bajtů do nového sloupce.	No
ResizeImages	Změna velikosti obrázků	No
DnnFeaturizeImage	Použije předem natrénovaný model hluboké neurální sítě (DNN) k transformaci vstupního obrázku na vektor funkce.	No

Kategorické transformace dat

Transformace	Definice	ONNX Exportable
OneHotEncoding	Převod jednoho nebo více textových sloupců na vektory s kódováním 1	Ano
OneHotHashEncoding	Převod jednoho nebo více textových sloupců na vektory s kódováním hash typu 1-hot	No