TransformationMixin Osztály

Referencia

Ez az osztály átalakítási képességeket biztosít a kimeneti adathalmazokhoz.

Öröklődés: builtins.object

TransformationMixin

Konstruktor

TransformationMixin()

Metódusok

read_delimited_files

Alakítsa át a kimeneti adatkészletet táblázatos adatkészletté úgy, hogy az összes kimenetet tagolt fájlként olvassa be.

read_parquet_files

Alakítsa át a kimeneti adatkészletet táblázatos adatkészletté az összes kimenet Parquet-fájlként való beolvasásával.

A táblázatos adatkészlet a köztes kimenet által mutatott parquet-fájl(ok) elemzésével jön létre.

read_delimited_files

Alakítsa át a kimeneti adatkészletet táblázatos adatkészletté úgy, hogy az összes kimenetet tagolt fájlként olvassa be.

read_delimited_files(include_path=False, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, partition_format=None, path_glob=None, set_column_types=None)

Paraméterek

include_path: bool

Kötelező

Logikai érték, ameddig az elérési út adatai oszlopként maradnak az adathalmazban. Alapértelmezés szerint Hamis. Ez akkor hasznos, ha több fájlt olvas be, és tudni szeretné, hogy egy adott rekord melyik fájlból származik, vagy ha hasznos információkat szeretne megőrizni a fájl elérési útján.

separator: str

Kötelező

Az oszlopok felosztásához használt elválasztó.

header: PromoteHeadersBehavior

Kötelező

Az oszlopfejlécek előléptetését szabályozza a fájlokból való olvasáskor. Alapértelmezés szerint feltételezzük, hogy minden fájl fejléce azonos.

partition_format: str

Kötelező

Adja meg az elérési út partícióformátumát. Alapértelmezés szerint Nincs. Az egyes elérési utak partícióadatai a megadott formátum alapján lesznek kinyerve oszlopokba. A(z) "{column_name}" formázási rész sztringoszlopot hoz létre, a "{column_name:yyyy/MM/dd/HH/mm/ss}" pedig datetime oszlopot hoz létre, ahol az "éé", az "MM", a "dd", a "HH", az "mm" és az "ss" függvény a datetime típus év, hónap, nap, óra, perc és másodperc kinyerésére szolgál. A formátumnak az első partíciókulcs helyzetétől a fájl elérési útjának végéig kell kezdődnie. Például a "." elérési út alapján. /Accounts/2019/01/01/data.parquet, ahol a partíció részlegnév és idő szerint van, partition_format="/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet" létrehoz egy "Department" sztringoszlopot a "Accounts" értékkel és egy "PartitionDate" datetime oszlopot a "2019-01-01" értékkel.

path_glob: str

Kötelező

Egy glob-szerű minta a tagolt fájlokként beolvasott fájlok szűréséhez. Ha a Nincs értékre van állítva, akkor a rendszer az összes fájlt tagolt fájlként olvassa be.

A Glob egy Unix-stílusú elérésiút-mintabővítés: https://docs.python.org/3/library/glob.html

ex)

*.csv –> a .csv kiterjesztésű fájlokat választja ki
test_.csv* –> olyan fájlnevekkel rendelkező fájlokat jelöl ki, amelyek test_ kezdődnek, és .csv fájlkiterjesztéssel rendelkezik
/myrootdir/project_one///.txt* –> a /myrootdir/project_one/ két alkönyvtárát tartalmazó fájlokat választja ki , és.txt fájlkiterjesztéssel rendelkezik

Megjegyzés: Ha a **** mintát nagy könyvtárfákban használja, akkor a rendszer nem megfelelő mennyiségű időt vehet igénybe. Általánosságban elmondható, hogy a nagy könyvtárfák esetében a glob mintában pontosabban meghatározottak, növelhetik a teljesítményt.

set_column_types: dict[str, DataType]

Kötelező

Az oszlop adattípusának beállítására szolgáló szótár, ahol a kulcs oszlopnév és érték DataType. A szótárban nem szereplő oszlopok sztring típusúak maradnak. A Nincs átadása nem eredményez konverziót. A forrásadatokban nem található oszlopok bejegyzései nem okoznak hibát, és figyelmen kívül lesznek hagyva.

Válaszok

Egy OutputTabularDatasetConfig példány, amely bemutatja, hogyan konvertálhatja a kimenetet táblázatos adatkészletté.

Visszatérési típus

OutputTabularDatasetConfig

read_parquet_files

Alakítsa át a kimeneti adatkészletet táblázatos adatkészletté az összes kimenet Parquet-fájlként való beolvasásával.

A táblázatos adatkészlet a köztes kimenet által mutatott parquet-fájl(ok) elemzésével jön létre.

read_parquet_files(include_path=False, partition_format=None, path_glob=None, set_column_types=None)

Paraméterek

include_path: bool

Kötelező

partition_format: str

Kötelező

path_glob: str

Kötelező

Glob-szerű minta a parquet-fájlokként beolvasott fájlok szűréséhez. Ha a Nincs értékre van állítva, akkor az összes fájl parquet-fájlként lesz olvasható.

A Glob egy Unix-stílusú elérésiút-mintabővítés: https://docs.python.org/3/library/glob.html

ex)

*.parquet –> a .parquet fájlkiterjesztéssel rendelkező fájlokat választja ki
test_.parquet* –> olyan fájlnevekkel rendelkező fájlokat jelöl ki, amelyek test_ kezdődnek, és .parquet fájlkiterjesztéssel rendelkezik
/myrootdir/project_one///. parquet* –> két alkönyvtárat tartalmazó fájlokat jelöl ki a /myrootdir/project_one/ mélyén, és .parquet fájlkiterjesztéssel rendelkezik

set_column_types: dict[str, DataType]

Kötelező

Az oszlop adattípusának beállítására szolgáló szótár, ahol a kulcs oszlopnév és érték DataType. A szótárban nem szereplő oszlopok a parkettafájlból betöltött típusúak maradnak. A Nincs átadása nem eredményez konverziót. A forrásadatokban nem található oszlopok bejegyzései nem okoznak hibát, és figyelmen kívül lesznek hagyva.

Válaszok

Egy OutputTabularDatasetConfig példány, amely bemutatja, hogyan konvertálhatja a kimenetet táblázatos adatkészletté.

Visszatérési típus

OutputTabularDatasetConfig

Megosztás a következőn keresztül:

TransformationMixin Osztály

Konstruktor

Metódusok

read_delimited_files

Paraméterek

Válaszok

Visszatérési típus

read_parquet_files

Paraméterek

Válaszok

Visszatérési típus

Visszajelzés

Visszajelzés

További források