Megosztás a következőn keresztül:


TransformationMixin Osztály

Ez az osztály átalakítási képességeket biztosít a kimeneti adathalmazokhoz.

Öröklődés
builtins.object
TransformationMixin

Konstruktor

TransformationMixin()

Metódusok

read_delimited_files

Alakítsa át a kimeneti adatkészletet táblázatos adatkészletté úgy, hogy az összes kimenetet tagolt fájlként olvassa be.

read_parquet_files

Alakítsa át a kimeneti adatkészletet táblázatos adatkészletté az összes kimenet Parquet-fájlként való beolvasásával.

A táblázatos adatkészlet a köztes kimenet által mutatott parquet-fájl(ok) elemzésével jön létre.

read_delimited_files

Alakítsa át a kimeneti adatkészletet táblázatos adatkészletté úgy, hogy az összes kimenetet tagolt fájlként olvassa be.

read_delimited_files(include_path=False, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, partition_format=None, path_glob=None, set_column_types=None)

Paraméterek

include_path
bool
Kötelező

Logikai érték, ameddig az elérési út adatai oszlopként maradnak az adathalmazban. Alapértelmezés szerint Hamis. Ez akkor hasznos, ha több fájlt olvas be, és tudni szeretné, hogy egy adott rekord melyik fájlból származik, vagy ha hasznos információkat szeretne megőrizni a fájl elérési útján.

separator
str
Kötelező

Az oszlopok felosztásához használt elválasztó.

header
PromoteHeadersBehavior
Kötelező

Az oszlopfejlécek előléptetését szabályozza a fájlokból való olvasáskor. Alapértelmezés szerint feltételezzük, hogy minden fájl fejléce azonos.

partition_format
str
Kötelező

Adja meg az elérési út partícióformátumát. Alapértelmezés szerint Nincs. Az egyes elérési utak partícióadatai a megadott formátum alapján lesznek kinyerve oszlopokba. A(z) "{column_name}" formázási rész sztringoszlopot hoz létre, a "{column_name:yyyy/MM/dd/HH/mm/ss}" pedig datetime oszlopot hoz létre, ahol az "éé", az "MM", a "dd", a "HH", az "mm" és az "ss" függvény a datetime típus év, hónap, nap, óra, perc és másodperc kinyerésére szolgál. A formátumnak az első partíciókulcs helyzetétől a fájl elérési útjának végéig kell kezdődnie. Például a "." elérési út alapján. /Accounts/2019/01/01/data.parquet, ahol a partíció részlegnév és idő szerint van, partition_format="/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet" létrehoz egy "Department" sztringoszlopot a "Accounts" értékkel és egy "PartitionDate" datetime oszlopot a "2019-01-01" értékkel.

path_glob
str
Kötelező

Egy glob-szerű minta a tagolt fájlokként beolvasott fájlok szűréséhez. Ha a Nincs értékre van állítva, akkor a rendszer az összes fájlt tagolt fájlként olvassa be.

A Glob egy Unix-stílusú elérésiút-mintabővítés: https://docs.python.org/3/library/glob.html

ex)

  • *.csv –> a .csv kiterjesztésű fájlokat választja ki
  • test_.csv* –> olyan fájlnevekkel rendelkező fájlokat jelöl ki, amelyek test_ kezdődnek, és .csv fájlkiterjesztéssel rendelkezik
  • /myrootdir/project_one///.txt* –> a /myrootdir/project_one/ két alkönyvtárát tartalmazó fájlokat választja ki , és.txt fájlkiterjesztéssel rendelkezik

Megjegyzés: Ha a **** mintát nagy könyvtárfákban használja, akkor a rendszer nem megfelelő mennyiségű időt vehet igénybe. Általánosságban elmondható, hogy a nagy könyvtárfák esetében a glob mintában pontosabban meghatározottak, növelhetik a teljesítményt.

set_column_types
dict[str, DataType]
Kötelező

Az oszlop adattípusának beállítására szolgáló szótár, ahol a kulcs oszlopnév és érték DataType. A szótárban nem szereplő oszlopok sztring típusúak maradnak. A Nincs átadása nem eredményez konverziót. A forrásadatokban nem található oszlopok bejegyzései nem okoznak hibát, és figyelmen kívül lesznek hagyva.

Válaszok

Egy OutputTabularDatasetConfig példány, amely bemutatja, hogyan konvertálhatja a kimenetet táblázatos adatkészletté.

Visszatérési típus

read_parquet_files

Alakítsa át a kimeneti adatkészletet táblázatos adatkészletté az összes kimenet Parquet-fájlként való beolvasásával.

A táblázatos adatkészlet a köztes kimenet által mutatott parquet-fájl(ok) elemzésével jön létre.

read_parquet_files(include_path=False, partition_format=None, path_glob=None, set_column_types=None)

Paraméterek

include_path
bool
Kötelező

Logikai érték, ameddig az elérési út adatai oszlopként maradnak az adathalmazban. Alapértelmezés szerint Hamis. Ez akkor hasznos, ha több fájlt olvas be, és tudni szeretné, hogy egy adott rekord melyik fájlból származik, vagy ha hasznos információkat szeretne megőrizni a fájl elérési útján.

partition_format
str
Kötelező

Adja meg az elérési út partícióformátumát. Alapértelmezés szerint Nincs. Az egyes elérési utak partícióadatai a megadott formátum alapján lesznek kinyerve oszlopokba. A(z) "{column_name}" formázási rész sztringoszlopot hoz létre, a "{column_name:yyyy/MM/dd/HH/mm/ss}" pedig datetime oszlopot hoz létre, ahol az "éé", az "MM", a "dd", a "HH", az "mm" és az "ss" függvény a datetime típus év, hónap, nap, óra, perc és másodperc kinyerésére szolgál. A formátumnak az első partíciókulcs helyzetétől a fájl elérési útjának végéig kell kezdődnie. Például a "." elérési út alapján. /Accounts/2019/01/01/data.parquet, ahol a partíció részlegnév és idő szerint van, partition_format="/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet" létrehoz egy "Department" sztringoszlopot a "Accounts" értékkel és egy "PartitionDate" datetime oszlopot a "2019-01-01" értékkel.

path_glob
str
Kötelező

Glob-szerű minta a parquet-fájlokként beolvasott fájlok szűréséhez. Ha a Nincs értékre van állítva, akkor az összes fájl parquet-fájlként lesz olvasható.

A Glob egy Unix-stílusú elérésiút-mintabővítés: https://docs.python.org/3/library/glob.html

ex)

  • *.parquet –> a .parquet fájlkiterjesztéssel rendelkező fájlokat választja ki
  • test_.parquet* –> olyan fájlnevekkel rendelkező fájlokat jelöl ki, amelyek test_ kezdődnek, és .parquet fájlkiterjesztéssel rendelkezik
  • /myrootdir/project_one///. parquet* –> két alkönyvtárat tartalmazó fájlokat jelöl ki a /myrootdir/project_one/ mélyén, és .parquet fájlkiterjesztéssel rendelkezik

Megjegyzés: Ha a **** mintát nagy könyvtárfákban használja, akkor a rendszer nem megfelelő mennyiségű időt vehet igénybe. Általánosságban elmondható, hogy a nagy könyvtárfák esetében a glob mintában pontosabban meghatározottak, növelhetik a teljesítményt.

set_column_types
dict[str, DataType]
Kötelező

Az oszlop adattípusának beállítására szolgáló szótár, ahol a kulcs oszlopnév és érték DataType. A szótárban nem szereplő oszlopok a parkettafájlból betöltött típusúak maradnak. A Nincs átadása nem eredményez konverziót. A forrásadatokban nem található oszlopok bejegyzései nem okoznak hibát, és figyelmen kívül lesznek hagyva.

Válaszok

Egy OutputTabularDatasetConfig példány, amely bemutatja, hogyan konvertálhatja a kimenetet táblázatos adatkészletté.

Visszatérési típus