PipelineOutputFileDataset Třída
Představuje zprostředkující data kanálu povýšená na datovou sadu souborů Azure Machine Learning.
Jakmile se zprostředkující data povyšují na datovou sadu Azure Machine Learning, budou se v dalších krocích využívat také jako datová sada místo dataReference.
Vytvořte průběžná data, která budou povýšena na datovou sadu Azure Machine Learning.
- Dědičnost
-
PipelineOutputFileDataset
Konstruktor
PipelineOutputFileDataset(pipeline_data)
Parametry
- pipeline_data
- PipelineData
PipelineData představující zprostředkující výstup, který bude povýšen na datovou sadu.
- pipeline_data
- PipelineData
PipelineData představující zprostředkující výstup, který bude povýšen na datovou sadu.
Metody
as_direct |
Nastavte režim spotřeby datové sady pro vstup na direct. V tomto režimu získáte ID datové sady a ve skriptu můžete zavolat Dataset.get_by_id k načtení datové sady. run.input_datasets[{dataset_name}] vrátí datovou sadu. |
as_download |
Nastavte režim spotřeby datové sady, kterou chcete stáhnout. |
as_mount |
Nastavte režim spotřeby datové sady, kterou chcete připojit. |
parse_delimited_files |
Transformujte datovou sadu zprostředkujícího souboru na tabulkovou datovou sadu. Tabulková datová sada se vytvoří analýzou souborů s oddělovači, na které odkazuje zprostředkující výstup. |
parse_parquet_files |
Transformujte datovou sadu zprostředkujícího souboru na tabulkovou datovou sadu. Tabulková datová sada se vytvoří analýzou souborů Parquet, na které odkazuje zprostředkující výstup. |
as_direct
Nastavte režim spotřeby datové sady pro vstup na direct.
V tomto režimu získáte ID datové sady a ve skriptu můžete zavolat Dataset.get_by_id k načtení datové sady. run.input_datasets[{dataset_name}] vrátí datovou sadu.
as_direct()
Návraty
Upravená sada PipelineOutputDataset.
Návratový typ
as_download
Nastavte režim spotřeby datové sady, kterou chcete stáhnout.
as_download(path_on_compute=None)
Parametry
- path_on_compute
- str
Cesta na výpočetním prostředí, do které se má datová sada stáhnout. Výchozí hodnota je Žádná, což znamená, že Azure Machine Learning vybere cestu za vás.
Návraty
Upravená sada PipelineOutputDataset.
Návratový typ
as_mount
Nastavte režim spotřeby datové sady, kterou chcete připojit.
as_mount(path_on_compute=None)
Parametry
- path_on_compute
- str
Cesta na výpočetním prostředí, ke které se má datová sada připojit. Výchozí hodnota je Žádná, což znamená, že Azure Machine Learning vybere cestu za vás.
Návraty
Upravená sada PipelineOutputDataset.
Návratový typ
parse_delimited_files
Transformujte datovou sadu zprostředkujícího souboru na tabulkovou datovou sadu.
Tabulková datová sada se vytvoří analýzou souborů s oddělovači, na které odkazuje zprostředkující výstup.
parse_delimited_files(include_path=False, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, partition_format=None, file_extension='', set_column_types=None, quoted_line_breaks=False)
Parametry
- include_path
- bool
Logická hodnota pro zachování informací o cestě jako sloupce v datové sadě. Výchozí hodnota je False. To je užitečné při čtení více souborů a chcete zjistit, ze kterého souboru konkrétní záznam pochází, nebo chcete mít užitečné informace v cestě k souboru.
- header
- PromoteHeadersBehavior
Řídí způsob zvýšení úrovně záhlaví sloupců při čtení ze souborů. Ve výchozím nastavení se předpokládá, že všechny soubory mají stejnou hlavičku.
- partition_format
- str
Zadejte formát oddílu cesty. Výchozí hodnota je Žádná. Informace o oddílech každé cesty budou extrahovány do sloupců na základě zadaného formátu. Formátovací část {column_name} vytvoří sloupec řetězce a {column_name:yyyy/MM/dd/HH/mm/ss} vytvoří sloupec datetime, kde 'yyyy', 'MM', 'dd', 'HH', 'mm' a 'ss' se používají k extrakci roku, měsíce, dne, hodiny, minuty a sekundy pro typ datetime. Formát by měl začínat od pozice prvního klíče oddílu až do konce cesty k souboru. Například vzhledem k cestě '.. /Accounts/2019/01/01/data.csv' kde je oddíl podle názvu a času oddělení, partition_format='/{Oddělení}/{PartitionDate:yyyy/MM/dd}/data.csv' 'Department' s hodnotou Accounts a sloupcem s datem a časem 'PartitionDate' s hodnotou '2019-01-01'.
- file_extension
- str
Přípona souborů, které se mají přečíst. Z adresáře se budou číst jenom soubory s touto příponou. Výchozí hodnota je ".csv", pokud je oddělovač ", a ".tsv", pokud je oddělovač tabulátorem, a Žádná jinak. Pokud se nepředá žádná, budou se číst všechny soubory bez ohledu na jejich příponu (nebo chybějící příponu).
Slovník pro nastavení datového typu sloupce, kde klíč je název sloupce a hodnota je DataType. Sloupce, které nejsou ve slovníku, zůstanou typu řetězec. Předání žádné nebude mít za následek žádné převody. Položky sloupců, které nebyly nalezeny ve zdrojových datech, nezpůsobí chybu a budou ignorovány.
- quoted_line_breaks
- bool
Určuje, jestli se mají zpracovávat znaky nových řádků v uvozovkách. Tato možnost může mít vliv na výkon.
Návraty
Vrátí průběžná data, která budou tabulkovou datovou sadou.
Návratový typ
Poznámky
Tato transformace se použije pouze v případě, že se průběžná data spotřebují jako vstup následného kroku. Nemá žádný vliv na výstup, ani když je předán výstupu.
parse_parquet_files
Transformujte datovou sadu zprostředkujícího souboru na tabulkovou datovou sadu.
Tabulková datová sada se vytvoří analýzou souborů Parquet, na které odkazuje zprostředkující výstup.
parse_parquet_files(include_path=False, partition_format=None, file_extension='.parquet', set_column_types=None)
Parametry
- include_path
- bool
Logická hodnota pro zachování informací o cestě jako sloupce v datové sadě. Výchozí hodnota je False. To je užitečné při čtení více souborů a chcete zjistit, ze kterého souboru konkrétní záznam pochází, nebo chcete mít užitečné informace v cestě k souboru.
- partition_format
- str
Zadejte formát oddílu cesty. Výchozí hodnota je Žádná. Informace o oddílech každé cesty budou extrahovány do sloupců na základě zadaného formátu. Formátovací část {column_name} vytvoří sloupec řetězce a {column_name:yyyy/MM/dd/HH/mm/ss} vytvoří sloupec datetime, kde 'yyyy', 'MM', 'dd', 'HH', 'mm' a 'ss' se používají k extrakci roku, měsíce, dne, hodiny, minuty a sekundy pro typ datetime. Formát by měl začínat od pozice prvního klíče oddílu až do konce cesty k souboru. Například vzhledem k cestě '.. /Accounts/2019/01/01/data.parquet' kde je oddíl podle názvu a času oddělení, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet vytvoří sloupec řetězce Department s hodnotou Accounts a sloupec datetime PartitionDate s hodnotou 2019-01-01.
- file_extension
- str
Přípona souborů, které se mají přečíst. Z adresáře se budou číst jenom soubory s touto příponou. Výchozí hodnota je .parquet. Pokud je tato možnost nastavená na Žádný, budou se číst všechny soubory bez ohledu na jejich příponu (nebo chybějící příponu).
Slovník pro nastavení datového typu sloupce, kde klíč je název sloupce a hodnota je DataType. Sloupce, které nejsou ve slovníku, zůstanou typu načteného ze souboru Parquet. Předání žádné nebude mít za následek žádné převody. Položky sloupců, které nebyly nalezeny ve zdrojových datech, nezpůsobí chybu a budou ignorovány.
Návraty
Vrátí průběžná data, která budou tabulkovou datovou sadou.
Návratový typ
Poznámky
Tato transformace se použije pouze v případě, že se průběžná data spotřebují jako vstup následného kroku. Nemá žádný vliv na výstup, ani když je předán výstupu.
Váš názor
https://aka.ms/ContentUserFeedback.
Připravujeme: V průběhu roku 2024 budeme postupně vyřazovat problémy z GitHub coby mechanismus zpětné vazby pro obsah a nahrazovat ho novým systémem zpětné vazby. Další informace naleznete v tématu:Odeslat a zobrazit názory pro