PipelineOutputFileDataset Osztály
Az Azure Machine Learning-fájladatkészletbe előléptetett köztes folyamatadatokat jelöli.
Miután előléptet egy köztes adatot egy Azure Machine Learning-adatkészletbe, a rendszer adathalmazként is felhasználja azokat a következő lépésekben dataReference helyett.
Hozzon létre egy köztes adatot, amelyet előléptet egy Azure Machine Learning-adatkészletbe.
- Öröklődés
-
PipelineOutputFileDataset
Konstruktor
PipelineOutputFileDataset(pipeline_data)
Paraméterek
- pipeline_data
- PipelineData
Az adathalmazba előléptetett köztes kimenetet képviselő PipelineData.
- pipeline_data
- PipelineData
Az adathalmazba előléptetett köztes kimenetet képviselő PipelineData.
Metódusok
as_direct |
Állítsa be az adathalmaz használati módját közvetlen értékre. Ebben a módban lekéri az adathalmaz azonosítóját, a szkriptben pedig meghívhatja Dataset.get_by_id az adathalmaz lekéréséhez. run.input_datasets[{dataset_name}] visszaadja az adathalmazt. |
as_download |
Állítsa be az adatkészlet használati módját letöltésre. |
as_mount |
Állítsa be az adathalmaz használati módját a csatlakoztatáshoz. |
parse_delimited_files |
Alakítsa át a köztes fájladatkészletet táblázatos adatkészletté. A táblázatos adatkészlet a köztes kimenet által mutatott tagolt fájl(ok) elemzésével jön létre. |
parse_parquet_files |
Alakítsa át a köztes fájladatkészletet táblázatos adatkészletté. A táblázatos adatkészlet a köztes kimenet által mutatott parquet-fájl(ok) elemzésével jön létre. |
as_direct
Állítsa be az adathalmaz használati módját közvetlen értékre.
Ebben a módban lekéri az adathalmaz azonosítóját, a szkriptben pedig meghívhatja Dataset.get_by_id az adathalmaz lekéréséhez. run.input_datasets[{dataset_name}] visszaadja az adathalmazt.
as_direct()
Válaszok
A módosított PipelineOutputDataset.
Visszatérési típus
as_download
Állítsa be az adatkészlet használati módját letöltésre.
as_download(path_on_compute=None)
Paraméterek
- path_on_compute
- str
Az adathalmaz letöltésének útvonala a számításban. Alapértelmezés szerint Nincs, ami azt jelenti, hogy az Azure Machine Learning kiválaszt egy útvonalat.
Válaszok
A módosított PipelineOutputDataset.
Visszatérési típus
as_mount
Állítsa be az adathalmaz használati módját a csatlakoztatáshoz.
as_mount(path_on_compute=None)
Paraméterek
- path_on_compute
- str
Az adathalmaz csatlakoztatásának útvonala a számításban. Alapértelmezés szerint Nincs, ami azt jelenti, hogy az Azure Machine Learning kiválaszt egy útvonalat.
Válaszok
A módosított PipelineOutputDataset.
Visszatérési típus
parse_delimited_files
Alakítsa át a köztes fájladatkészletet táblázatos adatkészletté.
A táblázatos adatkészlet a köztes kimenet által mutatott tagolt fájl(ok) elemzésével jön létre.
parse_delimited_files(include_path=False, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, partition_format=None, file_extension='', set_column_types=None, quoted_line_breaks=False)
Paraméterek
- include_path
- bool
Logikai érték, ameddig az elérési út adatai oszlopként maradnak az adathalmazban. Alapértelmezés szerint Hamis. Ez akkor hasznos, ha több fájlt olvas be, és tudni szeretné, hogy egy adott rekord melyik fájlból származik, vagy ha hasznos információkat szeretne megőrizni a fájl elérési útján.
- header
- PromoteHeadersBehavior
Azt szabályozza, hogyan léptethetők elő az oszlopfejlécek a fájlokból való olvasáskor. Alapértelmezés szerint feltételezzük, hogy minden fájl fejléce azonos.
- partition_format
- str
Adja meg az elérési út partícióformátumát. Alapértelmezés szerint Nincs. Az egyes elérési utak partícióadatai a megadott formátum alapján lesznek kinyerve oszlopokba. A(z) "{column_name}" formázási rész sztringoszlopot hoz létre, a "{column_name:yyyy/MM/dd/HH/mm/ss}" pedig datetime oszlopot hoz létre, ahol az "éé", az "MM", a "dd", a "HH", az "mm" és az "ss" függvény a datetime típus év, hónap, nap, óra, perc és másodperc kinyerésére szolgál. A formátumnak az első partíciókulcs helyzetétől a fájl elérési útjának végéig kell kezdődnie. Például a "." elérési út alapján. /Accounts/2019/01/01/data.csv, ahol a partíció részlegnév és idő szerint van, partition_format="/{Department}/{PartitionDate:yy/MM/dd}/data.csv" "Department", "Accounts" (Fiókok) értékkel és egy "PartitionDate" datetime oszlop "2019-01-01" értékkel.
- file_extension
- str
Az olvasni kívánt fájlok fájlkiterjesztése. Csak az ezzel a kiterjesztéssel rendelkező fájlok lesznek beolvasva a könyvtárból. Az alapértelmezett érték ".csv", ha az elválasztó értéke "," és ".tsv", ha az elválasztó lap, a Nincs más. Ha nincs átadva, az összes fájl a bővítménytől (vagy a bővítmény hiányától) függetlenül beolvasható.
Az oszlop adattípusának beállítására szolgáló szótár, ahol a kulcs oszlopnév és érték DataType. A szótárban nem szereplő oszlopok sztring típusúak maradnak. A Nincs átadása nem eredményez konverziót. A forrásadatokban nem található oszlopok bejegyzései nem okoznak hibát, és figyelmen kívül lesznek hagyva.
- quoted_line_breaks
- bool
Új sorkarakterek kezelése az idézőjelekben. Ez a beállítás hatással lehet a teljesítményre.
Válaszok
Olyan köztes adatokat ad vissza, amelyek táblázatos adathalmazok lesznek.
Visszatérési típus
Megjegyzések
Ez az átalakítás csak akkor lesz alkalmazva, ha a köztes adatokat a következő lépés bemeneteként használják fel. Nincs hatással a kimenetre, még akkor sem, ha azt a kimenetnek továbbítja.
parse_parquet_files
Alakítsa át a köztes fájladatkészletet táblázatos adatkészletté.
A táblázatos adatkészlet a köztes kimenet által mutatott parquet-fájl(ok) elemzésével jön létre.
parse_parquet_files(include_path=False, partition_format=None, file_extension='.parquet', set_column_types=None)
Paraméterek
- include_path
- bool
Logikai érték, ameddig az elérési út adatai oszlopként maradnak az adathalmazban. Alapértelmezés szerint Hamis. Ez akkor hasznos, ha több fájlt olvas be, és tudni szeretné, hogy egy adott rekord melyik fájlból származik, vagy ha hasznos információkat szeretne megőrizni a fájl elérési útján.
- partition_format
- str
Adja meg az elérési út partícióformátumát. Alapértelmezés szerint Nincs. Az egyes elérési utak partícióadatai a megadott formátum alapján lesznek kinyerve oszlopokba. A(z) "{column_name}" formázási rész sztringoszlopot hoz létre, a "{column_name:yyyy/MM/dd/HH/mm/ss}" pedig datetime oszlopot hoz létre, ahol az "éé", az "MM", a "dd", a "HH", az "mm" és az "ss" függvény a datetime típus év, hónap, nap, óra, perc és másodperc kinyerésére szolgál. A formátumnak az első partíciókulcs helyzetétől a fájl elérési útjának végéig kell kezdődnie. Például a "." elérési út alapján. /Accounts/2019/01/01/data.parquet, ahol a partíció részlegnév és idő szerint van, partition_format="/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet" létrehoz egy "Department" sztringoszlopot a "Accounts" értékkel és egy "PartitionDate" datetime oszlopot a "2019-01-01" értékkel.
- file_extension
- str
Az olvasni kívánt fájlok fájlkiterjesztése. Csak az ezzel a kiterjesztéssel rendelkező fájlok lesznek beolvasva a könyvtárból. Az alapértelmezett érték a ".parquet". Ha ez Nincs értékre van állítva, a rendszer az összes fájlt felolvassa a bővítménytől (vagy a bővítmény hiányától függetlenül).
Az oszlop adattípusának beállítására szolgáló szótár, ahol a kulcs oszlopnév és érték DataType. A szótárban nem szereplő oszlopok a parquet fájlból betöltött típusúak maradnak. A Nincs átadása nem eredményez konverziót. A forrásadatokban nem található oszlopok bejegyzései nem okoznak hibát, és figyelmen kívül lesznek hagyva.
Válaszok
Olyan köztes adatokat ad vissza, amelyek táblázatos adathalmazok lesznek.
Visszatérési típus
Megjegyzések
Ez az átalakítás csak akkor lesz alkalmazva, ha a köztes adatokat a következő lépés bemeneteként használják fel. Nincs hatással a kimenetre, még akkor sem, ha azt a kimenetnek továbbítja.
Visszajelzés
https://aka.ms/ContentUserFeedback.
Hamarosan elérhető: 2024-ben fokozatosan kivezetjük a GitHub-problémákat a tartalom visszajelzési mechanizmusaként, és lecseréljük egy új visszajelzési rendszerre. További információ:Visszajelzés küldése és megtekintése a következőhöz: