Megosztás a következőn keresztül:


PipelineOutputFileDataset Osztály

Az Azure Machine Learning-fájladatkészletbe előléptetett köztes folyamatadatokat jelöli.

Miután előléptet egy köztes adatot egy Azure Machine Learning-adatkészletbe, a rendszer adathalmazként is felhasználja azokat a következő lépésekben dataReference helyett.

Hozzon létre egy köztes adatot, amelyet előléptet egy Azure Machine Learning-adatkészletbe.

Öröklődés
PipelineOutputFileDataset

Konstruktor

PipelineOutputFileDataset(pipeline_data)

Paraméterek

pipeline_data
PipelineData
Kötelező

Az adathalmazba előléptetett köztes kimenetet képviselő PipelineData.

pipeline_data
PipelineData
Kötelező

Az adathalmazba előléptetett köztes kimenetet képviselő PipelineData.

Metódusok

as_direct

Állítsa be az adathalmaz használati módját közvetlen értékre.

Ebben a módban lekéri az adathalmaz azonosítóját, a szkriptben pedig meghívhatja Dataset.get_by_id az adathalmaz lekéréséhez. run.input_datasets[{dataset_name}] visszaadja az adathalmazt.

as_download

Állítsa be az adatkészlet használati módját letöltésre.

as_mount

Állítsa be az adathalmaz használati módját a csatlakoztatáshoz.

parse_delimited_files

Alakítsa át a köztes fájladatkészletet táblázatos adatkészletté.

A táblázatos adatkészlet a köztes kimenet által mutatott tagolt fájl(ok) elemzésével jön létre.

parse_parquet_files

Alakítsa át a köztes fájladatkészletet táblázatos adatkészletté.

A táblázatos adatkészlet a köztes kimenet által mutatott parquet-fájl(ok) elemzésével jön létre.

as_direct

Állítsa be az adathalmaz használati módját közvetlen értékre.

Ebben a módban lekéri az adathalmaz azonosítóját, a szkriptben pedig meghívhatja Dataset.get_by_id az adathalmaz lekéréséhez. run.input_datasets[{dataset_name}] visszaadja az adathalmazt.

as_direct()

Válaszok

A módosított PipelineOutputDataset.

Visszatérési típus

as_download

Állítsa be az adatkészlet használati módját letöltésre.

as_download(path_on_compute=None)

Paraméterek

path_on_compute
str
alapértelmezett érték: None

Az adathalmaz letöltésének útvonala a számításban. Alapértelmezés szerint Nincs, ami azt jelenti, hogy az Azure Machine Learning kiválaszt egy útvonalat.

Válaszok

A módosított PipelineOutputDataset.

Visszatérési típus

as_mount

Állítsa be az adathalmaz használati módját a csatlakoztatáshoz.

as_mount(path_on_compute=None)

Paraméterek

path_on_compute
str
alapértelmezett érték: None

Az adathalmaz csatlakoztatásának útvonala a számításban. Alapértelmezés szerint Nincs, ami azt jelenti, hogy az Azure Machine Learning kiválaszt egy útvonalat.

Válaszok

A módosított PipelineOutputDataset.

Visszatérési típus

parse_delimited_files

Alakítsa át a köztes fájladatkészletet táblázatos adatkészletté.

A táblázatos adatkészlet a köztes kimenet által mutatott tagolt fájl(ok) elemzésével jön létre.

parse_delimited_files(include_path=False, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, partition_format=None, file_extension='', set_column_types=None, quoted_line_breaks=False)

Paraméterek

include_path
bool
alapértelmezett érték: False

Logikai érték, ameddig az elérési út adatai oszlopként maradnak az adathalmazban. Alapértelmezés szerint Hamis. Ez akkor hasznos, ha több fájlt olvas be, és tudni szeretné, hogy egy adott rekord melyik fájlból származik, vagy ha hasznos információkat szeretne megőrizni a fájl elérési útján.

separator
str
alapértelmezett érték: ,

Az oszlopok felosztásához használt elválasztó.

header
PromoteHeadersBehavior
alapértelmezett érték: PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS

Azt szabályozza, hogyan léptethetők elő az oszlopfejlécek a fájlokból való olvasáskor. Alapértelmezés szerint feltételezzük, hogy minden fájl fejléce azonos.

partition_format
str
alapértelmezett érték: None

Adja meg az elérési út partícióformátumát. Alapértelmezés szerint Nincs. Az egyes elérési utak partícióadatai a megadott formátum alapján lesznek kinyerve oszlopokba. A(z) "{column_name}" formázási rész sztringoszlopot hoz létre, a "{column_name:yyyy/MM/dd/HH/mm/ss}" pedig datetime oszlopot hoz létre, ahol az "éé", az "MM", a "dd", a "HH", az "mm" és az "ss" függvény a datetime típus év, hónap, nap, óra, perc és másodperc kinyerésére szolgál. A formátumnak az első partíciókulcs helyzetétől a fájl elérési útjának végéig kell kezdődnie. Például a "." elérési út alapján. /Accounts/2019/01/01/data.csv, ahol a partíció részlegnév és idő szerint van, partition_format="/{Department}/{PartitionDate:yy/MM/dd}/data.csv" "Department", "Accounts" (Fiókok) értékkel és egy "PartitionDate" datetime oszlop "2019-01-01" értékkel.

file_extension
str
Kötelező

Az olvasni kívánt fájlok fájlkiterjesztése. Csak az ezzel a kiterjesztéssel rendelkező fájlok lesznek beolvasva a könyvtárból. Az alapértelmezett érték ".csv", ha az elválasztó értéke "," és ".tsv", ha az elválasztó lap, a Nincs más. Ha nincs átadva, az összes fájl a bővítménytől (vagy a bővítmény hiányától) függetlenül beolvasható.

set_column_types
dict[str, DataType]
alapértelmezett érték: None

Az oszlop adattípusának beállítására szolgáló szótár, ahol a kulcs oszlopnév és érték DataType. A szótárban nem szereplő oszlopok sztring típusúak maradnak. A Nincs átadása nem eredményez konverziót. A forrásadatokban nem található oszlopok bejegyzései nem okoznak hibát, és figyelmen kívül lesznek hagyva.

quoted_line_breaks
bool
alapértelmezett érték: False

Új sorkarakterek kezelése az idézőjelekben. Ez a beállítás hatással lehet a teljesítményre.

Válaszok

Olyan köztes adatokat ad vissza, amelyek táblázatos adathalmazok lesznek.

Visszatérési típus

Megjegyzések

Ez az átalakítás csak akkor lesz alkalmazva, ha a köztes adatokat a következő lépés bemeneteként használják fel. Nincs hatással a kimenetre, még akkor sem, ha azt a kimenetnek továbbítja.

parse_parquet_files

Alakítsa át a köztes fájladatkészletet táblázatos adatkészletté.

A táblázatos adatkészlet a köztes kimenet által mutatott parquet-fájl(ok) elemzésével jön létre.

parse_parquet_files(include_path=False, partition_format=None, file_extension='.parquet', set_column_types=None)

Paraméterek

include_path
bool
alapértelmezett érték: False

Logikai érték, ameddig az elérési út adatai oszlopként maradnak az adathalmazban. Alapértelmezés szerint Hamis. Ez akkor hasznos, ha több fájlt olvas be, és tudni szeretné, hogy egy adott rekord melyik fájlból származik, vagy ha hasznos információkat szeretne megőrizni a fájl elérési útján.

partition_format
str
alapértelmezett érték: None

Adja meg az elérési út partícióformátumát. Alapértelmezés szerint Nincs. Az egyes elérési utak partícióadatai a megadott formátum alapján lesznek kinyerve oszlopokba. A(z) "{column_name}" formázási rész sztringoszlopot hoz létre, a "{column_name:yyyy/MM/dd/HH/mm/ss}" pedig datetime oszlopot hoz létre, ahol az "éé", az "MM", a "dd", a "HH", az "mm" és az "ss" függvény a datetime típus év, hónap, nap, óra, perc és másodperc kinyerésére szolgál. A formátumnak az első partíciókulcs helyzetétől a fájl elérési útjának végéig kell kezdődnie. Például a "." elérési út alapján. /Accounts/2019/01/01/data.parquet, ahol a partíció részlegnév és idő szerint van, partition_format="/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet" létrehoz egy "Department" sztringoszlopot a "Accounts" értékkel és egy "PartitionDate" datetime oszlopot a "2019-01-01" értékkel.

file_extension
str
alapértelmezett érték: .parquet

Az olvasni kívánt fájlok fájlkiterjesztése. Csak az ezzel a kiterjesztéssel rendelkező fájlok lesznek beolvasva a könyvtárból. Az alapértelmezett érték a ".parquet". Ha ez Nincs értékre van állítva, a rendszer az összes fájlt felolvassa a bővítménytől (vagy a bővítmény hiányától függetlenül).

set_column_types
dict[str, DataType]
alapértelmezett érték: None

Az oszlop adattípusának beállítására szolgáló szótár, ahol a kulcs oszlopnév és érték DataType. A szótárban nem szereplő oszlopok a parquet fájlból betöltött típusúak maradnak. A Nincs átadása nem eredményez konverziót. A forrásadatokban nem található oszlopok bejegyzései nem okoznak hibát, és figyelmen kívül lesznek hagyva.

Válaszok

Olyan köztes adatokat ad vissza, amelyek táblázatos adathalmazok lesznek.

Visszatérési típus

Megjegyzések

Ez az átalakítás csak akkor lesz alkalmazva, ha a köztes adatokat a következő lépés bemeneteként használják fel. Nincs hatással a kimenetre, még akkor sem, ha azt a kimenetnek továbbítja.