TransformationMixin Osztály
Ez az osztály átalakítási képességeket biztosít a kimeneti adathalmazokhoz.
- Öröklődés
-
builtins.objectTransformationMixin
Konstruktor
TransformationMixin()
Metódusok
read_delimited_files |
Alakítsa át a kimeneti adatkészletet táblázatos adatkészletté úgy, hogy az összes kimenetet tagolt fájlként olvassa be. |
read_parquet_files |
Alakítsa át a kimeneti adatkészletet táblázatos adatkészletté az összes kimenet Parquet-fájlként való beolvasásával. A táblázatos adatkészlet a köztes kimenet által mutatott parquet-fájl(ok) elemzésével jön létre. |
read_delimited_files
Alakítsa át a kimeneti adatkészletet táblázatos adatkészletté úgy, hogy az összes kimenetet tagolt fájlként olvassa be.
read_delimited_files(include_path=False, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, partition_format=None, path_glob=None, set_column_types=None)
Paraméterek
- include_path
- bool
Logikai érték, ameddig az elérési út adatai oszlopként maradnak az adathalmazban. Alapértelmezés szerint Hamis. Ez akkor hasznos, ha több fájlt olvas be, és tudni szeretné, hogy egy adott rekord melyik fájlból származik, vagy ha hasznos információkat szeretne megőrizni a fájl elérési útján.
- header
- PromoteHeadersBehavior
Az oszlopfejlécek előléptetését szabályozza a fájlokból való olvasáskor. Alapértelmezés szerint feltételezzük, hogy minden fájl fejléce azonos.
- partition_format
- str
Adja meg az elérési út partícióformátumát. Alapértelmezés szerint Nincs. Az egyes elérési utak partícióadatai a megadott formátum alapján lesznek kinyerve oszlopokba. A(z) "{column_name}" formázási rész sztringoszlopot hoz létre, a "{column_name:yyyy/MM/dd/HH/mm/ss}" pedig datetime oszlopot hoz létre, ahol az "éé", az "MM", a "dd", a "HH", az "mm" és az "ss" függvény a datetime típus év, hónap, nap, óra, perc és másodperc kinyerésére szolgál. A formátumnak az első partíciókulcs helyzetétől a fájl elérési útjának végéig kell kezdődnie. Például a "." elérési út alapján. /Accounts/2019/01/01/data.parquet, ahol a partíció részlegnév és idő szerint van, partition_format="/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet" létrehoz egy "Department" sztringoszlopot a "Accounts" értékkel és egy "PartitionDate" datetime oszlopot a "2019-01-01" értékkel.
- path_glob
- str
Egy glob-szerű minta a tagolt fájlokként beolvasott fájlok szűréséhez. Ha a Nincs értékre van állítva, akkor a rendszer az összes fájlt tagolt fájlként olvassa be.
A Glob egy Unix-stílusú elérésiút-mintabővítés: https://docs.python.org/3/library/glob.html
ex)
- *.csv –> a .csv kiterjesztésű fájlokat választja ki
- test_.csv* –> olyan fájlnevekkel rendelkező fájlokat jelöl ki, amelyek test_ kezdődnek, és .csv fájlkiterjesztéssel rendelkezik
- /myrootdir/project_one///.txt* –> a /myrootdir/project_one/ két alkönyvtárát tartalmazó fájlokat választja ki , és.txt fájlkiterjesztéssel rendelkezik
Megjegyzés: Ha a **** mintát nagy könyvtárfákban használja, akkor a rendszer nem megfelelő mennyiségű időt vehet igénybe. Általánosságban elmondható, hogy a nagy könyvtárfák esetében a glob mintában pontosabban meghatározottak, növelhetik a teljesítményt.
Az oszlop adattípusának beállítására szolgáló szótár, ahol a kulcs oszlopnév és érték DataType. A szótárban nem szereplő oszlopok sztring típusúak maradnak. A Nincs átadása nem eredményez konverziót. A forrásadatokban nem található oszlopok bejegyzései nem okoznak hibát, és figyelmen kívül lesznek hagyva.
Válaszok
Egy OutputTabularDatasetConfig példány, amely bemutatja, hogyan konvertálhatja a kimenetet táblázatos adatkészletté.
Visszatérési típus
read_parquet_files
Alakítsa át a kimeneti adatkészletet táblázatos adatkészletté az összes kimenet Parquet-fájlként való beolvasásával.
A táblázatos adatkészlet a köztes kimenet által mutatott parquet-fájl(ok) elemzésével jön létre.
read_parquet_files(include_path=False, partition_format=None, path_glob=None, set_column_types=None)
Paraméterek
- include_path
- bool
Logikai érték, ameddig az elérési út adatai oszlopként maradnak az adathalmazban. Alapértelmezés szerint Hamis. Ez akkor hasznos, ha több fájlt olvas be, és tudni szeretné, hogy egy adott rekord melyik fájlból származik, vagy ha hasznos információkat szeretne megőrizni a fájl elérési útján.
- partition_format
- str
Adja meg az elérési út partícióformátumát. Alapértelmezés szerint Nincs. Az egyes elérési utak partícióadatai a megadott formátum alapján lesznek kinyerve oszlopokba. A(z) "{column_name}" formázási rész sztringoszlopot hoz létre, a "{column_name:yyyy/MM/dd/HH/mm/ss}" pedig datetime oszlopot hoz létre, ahol az "éé", az "MM", a "dd", a "HH", az "mm" és az "ss" függvény a datetime típus év, hónap, nap, óra, perc és másodperc kinyerésére szolgál. A formátumnak az első partíciókulcs helyzetétől a fájl elérési útjának végéig kell kezdődnie. Például a "." elérési út alapján. /Accounts/2019/01/01/data.parquet, ahol a partíció részlegnév és idő szerint van, partition_format="/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet" létrehoz egy "Department" sztringoszlopot a "Accounts" értékkel és egy "PartitionDate" datetime oszlopot a "2019-01-01" értékkel.
- path_glob
- str
Glob-szerű minta a parquet-fájlokként beolvasott fájlok szűréséhez. Ha a Nincs értékre van állítva, akkor az összes fájl parquet-fájlként lesz olvasható.
A Glob egy Unix-stílusú elérésiút-mintabővítés: https://docs.python.org/3/library/glob.html
ex)
- *.parquet –> a .parquet fájlkiterjesztéssel rendelkező fájlokat választja ki
- test_.parquet* –> olyan fájlnevekkel rendelkező fájlokat jelöl ki, amelyek test_ kezdődnek, és .parquet fájlkiterjesztéssel rendelkezik
- /myrootdir/project_one///. parquet* –> két alkönyvtárat tartalmazó fájlokat jelöl ki a /myrootdir/project_one/ mélyén, és .parquet fájlkiterjesztéssel rendelkezik
Megjegyzés: Ha a **** mintát nagy könyvtárfákban használja, akkor a rendszer nem megfelelő mennyiségű időt vehet igénybe. Általánosságban elmondható, hogy a nagy könyvtárfák esetében a glob mintában pontosabban meghatározottak, növelhetik a teljesítményt.
Az oszlop adattípusának beállítására szolgáló szótár, ahol a kulcs oszlopnév és érték DataType. A szótárban nem szereplő oszlopok a parkettafájlból betöltött típusúak maradnak. A Nincs átadása nem eredményez konverziót. A forrásadatokban nem található oszlopok bejegyzései nem okoznak hibát, és figyelmen kívül lesznek hagyva.
Válaszok
Egy OutputTabularDatasetConfig példány, amely bemutatja, hogyan konvertálhatja a kimenetet táblázatos adatkészletté.
Visszatérési típus
Visszajelzés
https://aka.ms/ContentUserFeedback.
Hamarosan elérhető: 2024-ben fokozatosan kivezetjük a GitHub-problémákat a tartalom visszajelzési mechanizmusaként, és lecseréljük egy új visszajelzési rendszerre. További információ:Visszajelzés küldése és megtekintése a következőhöz: