PipelineOutputFileDataset Třída

Reference

Představuje zprostředkující data kanálu povýšená na datovou sadu souborů Azure Machine Learning.

Jakmile se zprostředkující data povyšují na datovou sadu Azure Machine Learning, budou se v dalších krocích využívat také jako datová sada místo dataReference.

Vytvořte průběžná data, která budou povýšena na datovou sadu Azure Machine Learning.

Dědičnost: PipelineOutputAbstractDataset

PipelineOutputFileDataset

Konstruktor

PipelineOutputFileDataset(pipeline_data)

Parametry

pipeline_data: PipelineData

Vyžadováno

PipelineData představující zprostředkující výstup, který bude povýšen na datovou sadu.

pipeline_data: PipelineData

Vyžadováno

PipelineData představující zprostředkující výstup, který bude povýšen na datovou sadu.

Metody

as_direct	Nastavte režim spotřeby datové sady pro vstup na direct. V tomto režimu získáte ID datové sady a ve skriptu můžete zavolat Dataset.get_by_id k načtení datové sady. run.input_datasets[{dataset_name}] vrátí datovou sadu.
as_download	Nastavte režim spotřeby datové sady, kterou chcete stáhnout.
as_mount	Nastavte režim spotřeby datové sady, kterou chcete připojit.
parse_delimited_files	Transformujte datovou sadu zprostředkujícího souboru na tabulkovou datovou sadu. Tabulková datová sada se vytvoří analýzou souborů s oddělovači, na které odkazuje zprostředkující výstup.
parse_parquet_files	Transformujte datovou sadu zprostředkujícího souboru na tabulkovou datovou sadu. Tabulková datová sada se vytvoří analýzou souborů Parquet, na které odkazuje zprostředkující výstup.

as_direct

Nastavte režim spotřeby datové sady pro vstup na direct.

V tomto režimu získáte ID datové sady a ve skriptu můžete zavolat Dataset.get_by_id k načtení datové sady. run.input_datasets[{dataset_name}] vrátí datovou sadu.

as_direct()

Návraty

Upravená sada PipelineOutputDataset.

Návratový typ

PipelineOutputFileDataset

as_download

Nastavte režim spotřeby datové sady, kterou chcete stáhnout.

as_download(path_on_compute=None)

Parametry

path_on_compute: str

výchozí hodnota: None

Cesta na výpočetním prostředí, do které se má datová sada stáhnout. Výchozí hodnota je Žádná, což znamená, že Azure Machine Learning vybere cestu za vás.

Návraty

Upravená sada PipelineOutputDataset.

Návratový typ

PipelineOutputFileDataset

as_mount

Nastavte režim spotřeby datové sady, kterou chcete připojit.

as_mount(path_on_compute=None)

Parametry

path_on_compute: str

výchozí hodnota: None

Cesta na výpočetním prostředí, ke které se má datová sada připojit. Výchozí hodnota je Žádná, což znamená, že Azure Machine Learning vybere cestu za vás.

Návraty

Upravená sada PipelineOutputDataset.

Návratový typ

PipelineOutputFileDataset

parse_delimited_files

Transformujte datovou sadu zprostředkujícího souboru na tabulkovou datovou sadu.

Tabulková datová sada se vytvoří analýzou souborů s oddělovači, na které odkazuje zprostředkující výstup.

parse_delimited_files(include_path=False, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, partition_format=None, file_extension='', set_column_types=None, quoted_line_breaks=False)

Parametry

include_path: bool

výchozí hodnota: False

Logická hodnota pro zachování informací o cestě jako sloupce v datové sadě. Výchozí hodnota je False. To je užitečné při čtení více souborů a chcete zjistit, ze kterého souboru konkrétní záznam pochází, nebo chcete mít užitečné informace v cestě k souboru.

separator: str

výchozí hodnota: ,

Oddělovač použitý k rozdělení sloupců.

header: PromoteHeadersBehavior

výchozí hodnota: PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS

Řídí způsob zvýšení úrovně záhlaví sloupců při čtení ze souborů. Ve výchozím nastavení se předpokládá, že všechny soubory mají stejnou hlavičku.

partition_format: str

výchozí hodnota: None

Zadejte formát oddílu cesty. Výchozí hodnota je Žádná. Informace o oddílech každé cesty budou extrahovány do sloupců na základě zadaného formátu. Formátovací část {column_name} vytvoří sloupec řetězce a {column_name:yyyy/MM/dd/HH/mm/ss} vytvoří sloupec datetime, kde 'yyyy', 'MM', 'dd', 'HH', 'mm' a 'ss' se používají k extrakci roku, měsíce, dne, hodiny, minuty a sekundy pro typ datetime. Formát by měl začínat od pozice prvního klíče oddílu až do konce cesty k souboru. Například vzhledem k cestě '.. /Accounts/2019/01/01/data.csv' kde je oddíl podle názvu a času oddělení, partition_format='/{Oddělení}/{PartitionDate:yyyy/MM/dd}/data.csv' 'Department' s hodnotou Accounts a sloupcem s datem a časem 'PartitionDate' s hodnotou '2019-01-01'.

file_extension: str

Vyžadováno

Přípona souborů, které se mají přečíst. Z adresáře se budou číst jenom soubory s touto příponou. Výchozí hodnota je ".csv", pokud je oddělovač ", a ".tsv", pokud je oddělovač tabulátorem, a Žádná jinak. Pokud se nepředá žádná, budou se číst všechny soubory bez ohledu na jejich příponu (nebo chybějící příponu).

set_column_types: dict[str, DataType]

výchozí hodnota: None

Slovník pro nastavení datového typu sloupce, kde klíč je název sloupce a hodnota je DataType. Sloupce, které nejsou ve slovníku, zůstanou typu řetězec. Předání žádné nebude mít za následek žádné převody. Položky sloupců, které nebyly nalezeny ve zdrojových datech, nezpůsobí chybu a budou ignorovány.

quoted_line_breaks: bool

výchozí hodnota: False

Určuje, jestli se mají zpracovávat znaky nových řádků v uvozovkách. Tato možnost může mít vliv na výkon.

Návraty

Vrátí průběžná data, která budou tabulkovou datovou sadou.

Návratový typ

PipelineOutputTabularDataset

Poznámky

Tato transformace se použije pouze v případě, že se průběžná data spotřebují jako vstup následného kroku. Nemá žádný vliv na výstup, ani když je předán výstupu.

parse_parquet_files

Transformujte datovou sadu zprostředkujícího souboru na tabulkovou datovou sadu.

Tabulková datová sada se vytvoří analýzou souborů Parquet, na které odkazuje zprostředkující výstup.

parse_parquet_files(include_path=False, partition_format=None, file_extension='.parquet', set_column_types=None)

Parametry

include_path: bool

výchozí hodnota: False

partition_format: str

výchozí hodnota: None

Zadejte formát oddílu cesty. Výchozí hodnota je Žádná. Informace o oddílech každé cesty budou extrahovány do sloupců na základě zadaného formátu. Formátovací část {column_name} vytvoří sloupec řetězce a {column_name:yyyy/MM/dd/HH/mm/ss} vytvoří sloupec datetime, kde 'yyyy', 'MM', 'dd', 'HH', 'mm' a 'ss' se používají k extrakci roku, měsíce, dne, hodiny, minuty a sekundy pro typ datetime. Formát by měl začínat od pozice prvního klíče oddílu až do konce cesty k souboru. Například vzhledem k cestě '.. /Accounts/2019/01/01/data.parquet' kde je oddíl podle názvu a času oddělení, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet vytvoří sloupec řetězce Department s hodnotou Accounts a sloupec datetime PartitionDate s hodnotou 2019-01-01.

file_extension: str

výchozí hodnota: .parquet

Přípona souborů, které se mají přečíst. Z adresáře se budou číst jenom soubory s touto příponou. Výchozí hodnota je .parquet. Pokud je tato možnost nastavená na Žádný, budou se číst všechny soubory bez ohledu na jejich příponu (nebo chybějící příponu).

set_column_types: dict[str, DataType]

výchozí hodnota: None

Slovník pro nastavení datového typu sloupce, kde klíč je název sloupce a hodnota je DataType. Sloupce, které nejsou ve slovníku, zůstanou typu načteného ze souboru Parquet. Předání žádné nebude mít za následek žádné převody. Položky sloupců, které nebyly nalezeny ve zdrojových datech, nezpůsobí chybu a budou ignorovány.

Návraty

Vrátí průběžná data, která budou tabulkovou datovou sadou.

Návratový typ

PipelineOutputTabularDataset

Poznámky

Tato transformace se použije pouze v případě, že se průběžná data spotřebují jako vstup následného kroku. Nemá žádný vliv na výstup, ani když je předán výstupu.

PipelineOutputFileDataset Třída

Konstruktor

Parametry

Metody

as_direct

Návraty

Návratový typ

as_download

Parametry

Návraty

Návratový typ

as_mount

Parametry

Návraty

Návratový typ

parse_delimited_files

Parametry

Návraty

Návratový typ

Poznámky

parse_parquet_files

Parametry

Návraty

Návratový typ

Poznámky

Váš názor

Váš názor

Další materiály