PipelineOutputFileDataset Třída

Představuje zprostředkující data kanálu povýšená na datovou sadu souborů Azure Machine Learning.

Jakmile se zprostředkující data povyšují na datovou sadu Azure Machine Learning, budou se v dalších krocích využívat také jako datová sada místo dataReference.

Vytvořte průběžná data, která budou povýšena na datovou sadu Azure Machine Learning.

Dědičnost
PipelineOutputFileDataset

Konstruktor

PipelineOutputFileDataset(pipeline_data)

Parametry

pipeline_data
PipelineData
Vyžadováno

PipelineData představující zprostředkující výstup, který bude povýšen na datovou sadu.

pipeline_data
PipelineData
Vyžadováno

PipelineData představující zprostředkující výstup, který bude povýšen na datovou sadu.

Metody

as_direct

Nastavte režim spotřeby datové sady pro vstup na direct.

V tomto režimu získáte ID datové sady a ve skriptu můžete zavolat Dataset.get_by_id k načtení datové sady. run.input_datasets[{dataset_name}] vrátí datovou sadu.

as_download

Nastavte režim spotřeby datové sady, kterou chcete stáhnout.

as_mount

Nastavte režim spotřeby datové sady, kterou chcete připojit.

parse_delimited_files

Transformujte datovou sadu zprostředkujícího souboru na tabulkovou datovou sadu.

Tabulková datová sada se vytvoří analýzou souborů s oddělovači, na které odkazuje zprostředkující výstup.

parse_parquet_files

Transformujte datovou sadu zprostředkujícího souboru na tabulkovou datovou sadu.

Tabulková datová sada se vytvoří analýzou souborů Parquet, na které odkazuje zprostředkující výstup.

as_direct

Nastavte režim spotřeby datové sady pro vstup na direct.

V tomto režimu získáte ID datové sady a ve skriptu můžete zavolat Dataset.get_by_id k načtení datové sady. run.input_datasets[{dataset_name}] vrátí datovou sadu.

as_direct()

Návraty

Upravená sada PipelineOutputDataset.

Návratový typ

as_download

Nastavte režim spotřeby datové sady, kterou chcete stáhnout.

as_download(path_on_compute=None)

Parametry

path_on_compute
str
výchozí hodnota: None

Cesta na výpočetním prostředí, do které se má datová sada stáhnout. Výchozí hodnota je Žádná, což znamená, že Azure Machine Learning vybere cestu za vás.

Návraty

Upravená sada PipelineOutputDataset.

Návratový typ

as_mount

Nastavte režim spotřeby datové sady, kterou chcete připojit.

as_mount(path_on_compute=None)

Parametry

path_on_compute
str
výchozí hodnota: None

Cesta na výpočetním prostředí, ke které se má datová sada připojit. Výchozí hodnota je Žádná, což znamená, že Azure Machine Learning vybere cestu za vás.

Návraty

Upravená sada PipelineOutputDataset.

Návratový typ

parse_delimited_files

Transformujte datovou sadu zprostředkujícího souboru na tabulkovou datovou sadu.

Tabulková datová sada se vytvoří analýzou souborů s oddělovači, na které odkazuje zprostředkující výstup.

parse_delimited_files(include_path=False, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, partition_format=None, file_extension='', set_column_types=None, quoted_line_breaks=False)

Parametry

include_path
bool
výchozí hodnota: False

Logická hodnota pro zachování informací o cestě jako sloupce v datové sadě. Výchozí hodnota je False. To je užitečné při čtení více souborů a chcete zjistit, ze kterého souboru konkrétní záznam pochází, nebo chcete mít užitečné informace v cestě k souboru.

separator
str
výchozí hodnota: ,

Oddělovač použitý k rozdělení sloupců.

header
PromoteHeadersBehavior
výchozí hodnota: PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS

Řídí způsob zvýšení úrovně záhlaví sloupců při čtení ze souborů. Ve výchozím nastavení se předpokládá, že všechny soubory mají stejnou hlavičku.

partition_format
str
výchozí hodnota: None

Zadejte formát oddílu cesty. Výchozí hodnota je Žádná. Informace o oddílech každé cesty budou extrahovány do sloupců na základě zadaného formátu. Formátovací část {column_name} vytvoří sloupec řetězce a {column_name:yyyy/MM/dd/HH/mm/ss} vytvoří sloupec datetime, kde 'yyyy', 'MM', 'dd', 'HH', 'mm' a 'ss' se používají k extrakci roku, měsíce, dne, hodiny, minuty a sekundy pro typ datetime. Formát by měl začínat od pozice prvního klíče oddílu až do konce cesty k souboru. Například vzhledem k cestě '.. /Accounts/2019/01/01/data.csv' kde je oddíl podle názvu a času oddělení, partition_format='/{Oddělení}/{PartitionDate:yyyy/MM/dd}/data.csv' 'Department' s hodnotou Accounts a sloupcem s datem a časem 'PartitionDate' s hodnotou '2019-01-01'.

file_extension
str
Vyžadováno

Přípona souborů, které se mají přečíst. Z adresáře se budou číst jenom soubory s touto příponou. Výchozí hodnota je ".csv", pokud je oddělovač ", a ".tsv", pokud je oddělovač tabulátorem, a Žádná jinak. Pokud se nepředá žádná, budou se číst všechny soubory bez ohledu na jejich příponu (nebo chybějící příponu).

set_column_types
dict[str, DataType]
výchozí hodnota: None

Slovník pro nastavení datového typu sloupce, kde klíč je název sloupce a hodnota je DataType. Sloupce, které nejsou ve slovníku, zůstanou typu řetězec. Předání žádné nebude mít za následek žádné převody. Položky sloupců, které nebyly nalezeny ve zdrojových datech, nezpůsobí chybu a budou ignorovány.

quoted_line_breaks
bool
výchozí hodnota: False

Určuje, jestli se mají zpracovávat znaky nových řádků v uvozovkách. Tato možnost může mít vliv na výkon.

Návraty

Vrátí průběžná data, která budou tabulkovou datovou sadou.

Návratový typ

Poznámky

Tato transformace se použije pouze v případě, že se průběžná data spotřebují jako vstup následného kroku. Nemá žádný vliv na výstup, ani když je předán výstupu.

parse_parquet_files

Transformujte datovou sadu zprostředkujícího souboru na tabulkovou datovou sadu.

Tabulková datová sada se vytvoří analýzou souborů Parquet, na které odkazuje zprostředkující výstup.

parse_parquet_files(include_path=False, partition_format=None, file_extension='.parquet', set_column_types=None)

Parametry

include_path
bool
výchozí hodnota: False

Logická hodnota pro zachování informací o cestě jako sloupce v datové sadě. Výchozí hodnota je False. To je užitečné při čtení více souborů a chcete zjistit, ze kterého souboru konkrétní záznam pochází, nebo chcete mít užitečné informace v cestě k souboru.

partition_format
str
výchozí hodnota: None

Zadejte formát oddílu cesty. Výchozí hodnota je Žádná. Informace o oddílech každé cesty budou extrahovány do sloupců na základě zadaného formátu. Formátovací část {column_name} vytvoří sloupec řetězce a {column_name:yyyy/MM/dd/HH/mm/ss} vytvoří sloupec datetime, kde 'yyyy', 'MM', 'dd', 'HH', 'mm' a 'ss' se používají k extrakci roku, měsíce, dne, hodiny, minuty a sekundy pro typ datetime. Formát by měl začínat od pozice prvního klíče oddílu až do konce cesty k souboru. Například vzhledem k cestě '.. /Accounts/2019/01/01/data.parquet' kde je oddíl podle názvu a času oddělení, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet vytvoří sloupec řetězce Department s hodnotou Accounts a sloupec datetime PartitionDate s hodnotou 2019-01-01.

file_extension
str
výchozí hodnota: .parquet

Přípona souborů, které se mají přečíst. Z adresáře se budou číst jenom soubory s touto příponou. Výchozí hodnota je .parquet. Pokud je tato možnost nastavená na Žádný, budou se číst všechny soubory bez ohledu na jejich příponu (nebo chybějící příponu).

set_column_types
dict[str, DataType]
výchozí hodnota: None

Slovník pro nastavení datového typu sloupce, kde klíč je název sloupce a hodnota je DataType. Sloupce, které nejsou ve slovníku, zůstanou typu načteného ze souboru Parquet. Předání žádné nebude mít za následek žádné převody. Položky sloupců, které nebyly nalezeny ve zdrojových datech, nezpůsobí chybu a budou ignorovány.

Návraty

Vrátí průběžná data, která budou tabulkovou datovou sadou.

Návratový typ

Poznámky

Tato transformace se použije pouze v případě, že se průběžná data spotřebují jako vstup následného kroku. Nemá žádný vliv na výstup, ani když je předán výstupu.