PipelineOutputFileDataset Osztály

Referencia

Az Azure Machine Learning-fájladatkészletbe előléptetett köztes folyamatadatokat jelöli.

Miután előléptet egy köztes adatot egy Azure Machine Learning-adatkészletbe, a rendszer adathalmazként is felhasználja azokat a következő lépésekben dataReference helyett.

Hozzon létre egy köztes adatot, amelyet előléptet egy Azure Machine Learning-adatkészletbe.

Öröklődés: PipelineOutputAbstractDataset

PipelineOutputFileDataset

Konstruktor

PipelineOutputFileDataset(pipeline_data)

Paraméterek

pipeline_data: PipelineData

Kötelező

Az adathalmazba előléptetett köztes kimenetet képviselő PipelineData.

pipeline_data: PipelineData

Kötelező

Az adathalmazba előléptetett köztes kimenetet képviselő PipelineData.

Metódusok

as_direct	Állítsa be az adathalmaz használati módját közvetlen értékre. Ebben a módban lekéri az adathalmaz azonosítóját, a szkriptben pedig meghívhatja Dataset.get_by_id az adathalmaz lekéréséhez. run.input_datasets[{dataset_name}] visszaadja az adathalmazt.
as_download	Állítsa be az adatkészlet használati módját letöltésre.
as_mount	Állítsa be az adathalmaz használati módját a csatlakoztatáshoz.
parse_delimited_files	Alakítsa át a köztes fájladatkészletet táblázatos adatkészletté. A táblázatos adatkészlet a köztes kimenet által mutatott tagolt fájl(ok) elemzésével jön létre.
parse_parquet_files	Alakítsa át a köztes fájladatkészletet táblázatos adatkészletté. A táblázatos adatkészlet a köztes kimenet által mutatott parquet-fájl(ok) elemzésével jön létre.

as_direct

Állítsa be az adathalmaz használati módját közvetlen értékre.

Ebben a módban lekéri az adathalmaz azonosítóját, a szkriptben pedig meghívhatja Dataset.get_by_id az adathalmaz lekéréséhez. run.input_datasets[{dataset_name}] visszaadja az adathalmazt.

as_direct()

Válaszok

A módosított PipelineOutputDataset.

Visszatérési típus

PipelineOutputFileDataset

as_download

Állítsa be az adatkészlet használati módját letöltésre.

as_download(path_on_compute=None)

Paraméterek

path_on_compute: str

alapértelmezett érték: None

Az adathalmaz letöltésének útvonala a számításban. Alapértelmezés szerint Nincs, ami azt jelenti, hogy az Azure Machine Learning kiválaszt egy útvonalat.

Válaszok

A módosított PipelineOutputDataset.

Visszatérési típus

PipelineOutputFileDataset

as_mount

Állítsa be az adathalmaz használati módját a csatlakoztatáshoz.

as_mount(path_on_compute=None)

Paraméterek

path_on_compute: str

alapértelmezett érték: None

Az adathalmaz csatlakoztatásának útvonala a számításban. Alapértelmezés szerint Nincs, ami azt jelenti, hogy az Azure Machine Learning kiválaszt egy útvonalat.

Válaszok

A módosított PipelineOutputDataset.

Visszatérési típus

PipelineOutputFileDataset

parse_delimited_files

Alakítsa át a köztes fájladatkészletet táblázatos adatkészletté.

A táblázatos adatkészlet a köztes kimenet által mutatott tagolt fájl(ok) elemzésével jön létre.

parse_delimited_files(include_path=False, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, partition_format=None, file_extension='', set_column_types=None, quoted_line_breaks=False)

Paraméterek

include_path: bool

alapértelmezett érték: False

Logikai érték, ameddig az elérési út adatai oszlopként maradnak az adathalmazban. Alapértelmezés szerint Hamis. Ez akkor hasznos, ha több fájlt olvas be, és tudni szeretné, hogy egy adott rekord melyik fájlból származik, vagy ha hasznos információkat szeretne megőrizni a fájl elérési útján.

separator: str

alapértelmezett érték: ,

Az oszlopok felosztásához használt elválasztó.

header: PromoteHeadersBehavior

alapértelmezett érték: PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS

Azt szabályozza, hogyan léptethetők elő az oszlopfejlécek a fájlokból való olvasáskor. Alapértelmezés szerint feltételezzük, hogy minden fájl fejléce azonos.

partition_format: str

alapértelmezett érték: None

Adja meg az elérési út partícióformátumát. Alapértelmezés szerint Nincs. Az egyes elérési utak partícióadatai a megadott formátum alapján lesznek kinyerve oszlopokba. A(z) "{column_name}" formázási rész sztringoszlopot hoz létre, a "{column_name:yyyy/MM/dd/HH/mm/ss}" pedig datetime oszlopot hoz létre, ahol az "éé", az "MM", a "dd", a "HH", az "mm" és az "ss" függvény a datetime típus év, hónap, nap, óra, perc és másodperc kinyerésére szolgál. A formátumnak az első partíciókulcs helyzetétől a fájl elérési útjának végéig kell kezdődnie. Például a "." elérési út alapján. /Accounts/2019/01/01/data.csv, ahol a partíció részlegnév és idő szerint van, partition_format="/{Department}/{PartitionDate:yy/MM/dd}/data.csv" "Department", "Accounts" (Fiókok) értékkel és egy "PartitionDate" datetime oszlop "2019-01-01" értékkel.

file_extension: str

Kötelező

Az olvasni kívánt fájlok fájlkiterjesztése. Csak az ezzel a kiterjesztéssel rendelkező fájlok lesznek beolvasva a könyvtárból. Az alapértelmezett érték ".csv", ha az elválasztó értéke "," és ".tsv", ha az elválasztó lap, a Nincs más. Ha nincs átadva, az összes fájl a bővítménytől (vagy a bővítmény hiányától) függetlenül beolvasható.

set_column_types: dict[str, DataType]

alapértelmezett érték: None

Az oszlop adattípusának beállítására szolgáló szótár, ahol a kulcs oszlopnév és érték DataType. A szótárban nem szereplő oszlopok sztring típusúak maradnak. A Nincs átadása nem eredményez konverziót. A forrásadatokban nem található oszlopok bejegyzései nem okoznak hibát, és figyelmen kívül lesznek hagyva.

quoted_line_breaks: bool

alapértelmezett érték: False

Új sorkarakterek kezelése az idézőjelekben. Ez a beállítás hatással lehet a teljesítményre.

Válaszok

Olyan köztes adatokat ad vissza, amelyek táblázatos adathalmazok lesznek.

Visszatérési típus

PipelineOutputTabularDataset

Megjegyzések

Ez az átalakítás csak akkor lesz alkalmazva, ha a köztes adatokat a következő lépés bemeneteként használják fel. Nincs hatással a kimenetre, még akkor sem, ha azt a kimenetnek továbbítja.

parse_parquet_files

Alakítsa át a köztes fájladatkészletet táblázatos adatkészletté.

A táblázatos adatkészlet a köztes kimenet által mutatott parquet-fájl(ok) elemzésével jön létre.

parse_parquet_files(include_path=False, partition_format=None, file_extension='.parquet', set_column_types=None)

Paraméterek

include_path: bool

alapértelmezett érték: False

partition_format: str

alapértelmezett érték: None

Adja meg az elérési út partícióformátumát. Alapértelmezés szerint Nincs. Az egyes elérési utak partícióadatai a megadott formátum alapján lesznek kinyerve oszlopokba. A(z) "{column_name}" formázási rész sztringoszlopot hoz létre, a "{column_name:yyyy/MM/dd/HH/mm/ss}" pedig datetime oszlopot hoz létre, ahol az "éé", az "MM", a "dd", a "HH", az "mm" és az "ss" függvény a datetime típus év, hónap, nap, óra, perc és másodperc kinyerésére szolgál. A formátumnak az első partíciókulcs helyzetétől a fájl elérési útjának végéig kell kezdődnie. Például a "." elérési út alapján. /Accounts/2019/01/01/data.parquet, ahol a partíció részlegnév és idő szerint van, partition_format="/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet" létrehoz egy "Department" sztringoszlopot a "Accounts" értékkel és egy "PartitionDate" datetime oszlopot a "2019-01-01" értékkel.

file_extension: str

alapértelmezett érték: .parquet

Az olvasni kívánt fájlok fájlkiterjesztése. Csak az ezzel a kiterjesztéssel rendelkező fájlok lesznek beolvasva a könyvtárból. Az alapértelmezett érték a ".parquet". Ha ez Nincs értékre van állítva, a rendszer az összes fájlt felolvassa a bővítménytől (vagy a bővítmény hiányától függetlenül).

set_column_types: dict[str, DataType]

alapértelmezett érték: None

Az oszlop adattípusának beállítására szolgáló szótár, ahol a kulcs oszlopnév és érték DataType. A szótárban nem szereplő oszlopok a parquet fájlból betöltött típusúak maradnak. A Nincs átadása nem eredményez konverziót. A forrásadatokban nem található oszlopok bejegyzései nem okoznak hibát, és figyelmen kívül lesznek hagyva.

Megosztás a következőn keresztül:

PipelineOutputFileDataset Osztály

Konstruktor

Paraméterek

Metódusok

as_direct

Válaszok

Visszatérési típus

as_download

Paraméterek

Válaszok

Visszatérési típus

as_mount

Paraméterek

Válaszok

Visszatérési típus

parse_delimited_files

Paraméterek

Válaszok

Visszatérési típus

Megjegyzések

parse_parquet_files

Paraméterek

Válaszok

Visszatérési típus

Megjegyzések

Visszajelzés

Visszajelzés

További források