PipelineOutputFileDataset Klass

Representerar mellanliggande pipelinedata som befordrats till en Azure Machine Learning-fildatauppsättning.

När mellanliggande data har befordrats till en Azure Machine Learning-datauppsättning, kommer den också att användas som en datauppsättning i stället för en DataReference i efterföljande steg.

Skapa mellanliggande data som ska höjas upp till en Azure Machine Learning-datauppsättning.

Arv
PipelineOutputFileDataset

Konstruktor

PipelineOutputFileDataset(pipeline_data)

Parametrar

pipeline_data
PipelineData
Obligatorisk

PipelineData som representerar mellanliggande utdata som kommer att höjas upp till en datauppsättning.

pipeline_data
PipelineData
Obligatorisk

PipelineData som representerar mellanliggande utdata som kommer att höjas upp till en datauppsättning.

Metoder

as_direct

Ange det förbrukningsläge för datauppsättningen som ska dirigeras.

I det här läget får du ID:t för datauppsättningen och i skriptet kan du anropa Dataset.get_by_id för att hämta datauppsättningen. run.input_datasets['{dataset_name}'] returnerar datauppsättningen.

as_download

Ange förbrukningsläget för datauppsättningen som ska laddas ned.

as_mount

Ange förbrukningsläget för datauppsättningen som montering.

parse_delimited_files

Transformera den mellanliggande fildatauppsättningen till en tabelldatauppsättning.

Tabelldatauppsättningen skapas genom parsning av de avgränsade filer som pekas på av mellanliggande utdata.

parse_parquet_files

Transformera den mellanliggande fildatauppsättningen till en tabelldatauppsättning.

Tabelldatauppsättningen skapas genom att parsa parquet-filerna som pekas på av mellanliggande utdata.

as_direct

Ange det förbrukningsläge för datauppsättningen som ska dirigeras.

I det här läget får du ID:t för datauppsättningen och i skriptet kan du anropa Dataset.get_by_id för att hämta datauppsättningen. run.input_datasets['{dataset_name}'] returnerar datauppsättningen.

as_direct()

Returer

Den ändrade PipelineOutputDataset.

Returtyp

as_download

Ange förbrukningsläget för datauppsättningen som ska laddas ned.

as_download(path_on_compute=None)

Parametrar

path_on_compute
str
standardvärde: None

Sökvägen till beräkningen som datauppsättningen ska laddas ned till. Standardvärdet är Ingen, vilket innebär att Azure Machine Learning väljer en sökväg åt dig.

Returer

Den ändrade PipelineOutputDataset.

Returtyp

as_mount

Ange förbrukningsläget för datauppsättningen som montering.

as_mount(path_on_compute=None)

Parametrar

path_on_compute
str
standardvärde: None

Sökvägen till beräkningen som datauppsättningen ska monteras på. Standardvärdet är Ingen, vilket innebär att Azure Machine Learning väljer en sökväg åt dig.

Returer

Den ändrade PipelineOutputDataset.

Returtyp

parse_delimited_files

Transformera den mellanliggande fildatauppsättningen till en tabelldatauppsättning.

Tabelldatauppsättningen skapas genom parsning av de avgränsade filer som pekas på av mellanliggande utdata.

parse_delimited_files(include_path=False, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, partition_format=None, file_extension='', set_column_types=None, quoted_line_breaks=False)

Parametrar

include_path
bool
standardvärde: False

Booleskt värde för att behålla sökvägsinformation som kolumn i datauppsättningen. Standardvärdet är False. Detta är användbart när du läser flera filer och vill veta vilken fil en viss post kommer från, eller för att behålla användbar information i filsökvägen.

separator
str
standardvärde: ,

Avgränsaren som används för att dela kolumner.

header
PromoteHeadersBehavior
standardvärde: PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS

Styr hur kolumnrubriker höjs upp när du läser från filer. Förutsätter som standard att alla filer har samma rubrik.

partition_format
str
standardvärde: None

Ange partitionsformatet för sökvägen. Standardvärdet är Ingen. Partitionsinformationen för varje sökväg extraheras till kolumner baserat på det angivna formatet. Formatdelen {column_name} skapar strängkolumnen och {column_name:åååå/MM/dd/HH/mm/ss} skapar datetime-kolumnen, där "åå", "MM", "dd", "HH", "mm" och "ss" används för att extrahera år, månad, dag, timme, minut och sekund för datetime-typen. Formatet bör börja från positionen för den första partitionsnyckeln till slutet av filsökvägen. Till exempel med tanke på sökvägen .. /Accounts/2019/01/01/data.csv" där partitionen är efter avdelningsnamn och tid, partition_format='/{Avdelning}/{PartitionDate:åååå/MM/dd}/data.csv' 'Avdelning' med värdet 'Konton' och en datetime-kolumn 'PartitionDate' med värdet '2019-01-01'.

file_extension
str
Obligatorisk

Filnamnstillägget för de filer som ska läsas. Endast filer med det här tillägget kommer att läsas från katalogen. Standardvärdet är ".csv" när avgränsaren är "," och ".tsv" när avgränsaren är tab, och Inget annat. Om Ingen skickas kommer alla filer att läsas oavsett deras tillägg (eller brist på tillägg).

set_column_types
dict[str, DataType]
standardvärde: None

En ordlista för att ange kolumndatatyp, där nyckeln är kolumnnamn och värde är DataType. Kolumner som inte finns i ordlistan förblir av typen sträng. Om ingen skickas resulterar det i inga konverteringar. Poster för kolumner som inte hittas i källdata orsakar inget fel och ignoreras.

quoted_line_breaks
bool
standardvärde: False

Om nya radtecken ska hanteras inom citattecken. Det här alternativet kan påverka prestanda.

Returer

Returnerar mellanliggande data som ska vara en tabelldatauppsättning.

Returtyp

Kommentarer

Den här omvandlingen tillämpas endast när mellanliggande data används som indata för efterföljande steg. Det har ingen effekt på utdata även om det skickas till utdata.

parse_parquet_files

Transformera den mellanliggande fildatauppsättningen till en tabelldatauppsättning.

Tabelldatauppsättningen skapas genom att parsa parquet-filerna som pekas på av mellanliggande utdata.

parse_parquet_files(include_path=False, partition_format=None, file_extension='.parquet', set_column_types=None)

Parametrar

include_path
bool
standardvärde: False

Booleskt värde för att behålla sökvägsinformation som kolumn i datauppsättningen. Standardvärdet är False. Detta är användbart när du läser flera filer och vill veta vilken fil en viss post kommer från, eller för att behålla användbar information i filsökvägen.

partition_format
str
standardvärde: None

Ange partitionsformatet för sökvägen. Standardvärdet är Ingen. Partitionsinformationen för varje sökväg extraheras till kolumner baserat på det angivna formatet. Formatdelen {column_name} skapar strängkolumnen och {column_name:åååå/MM/dd/HH/mm/ss} skapar datetime-kolumnen, där "åå", "MM", "dd", "HH", "mm" och "ss" används för att extrahera år, månad, dag, timme, minut och sekund för datetime-typen. Formatet bör börja från positionen för den första partitionsnyckeln till slutet av filsökvägen. Till exempel med tanke på sökvägen .. /Accounts/2019/01/01/data.parquet' där partitionen är efter avdelningsnamn och tid, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' skapar en strängkolumn 'Avdelning' med värdet 'Konton' och en datetime-kolumn 'PartitionDate' med värdet '2019-01-01'.

file_extension
str
standardvärde: .parquet

Filnamnstillägget för de filer som ska läsas. Endast filer med det här tillägget kommer att läsas från katalogen. Standardvärdet är .parquet. Om det här är inställt på Ingen kommer alla filer att läsas oavsett deras tillägg (eller brist på tillägg).

set_column_types
dict[str, DataType]
standardvärde: None

En ordlista för att ange kolumndatatyp, där nyckeln är kolumnnamn och värde är DataType. Kolumner som inte finns i ordlistan förblir av den typ som läses in från parquet-filen. Om ingen skickas resulterar det i inga konverteringar. Poster för kolumner som inte hittas i källdata orsakar inget fel och ignoreras.

Returer

Returnerar mellanliggande data som ska vara en tabelldatauppsättning.

Returtyp

Kommentarer

Den här omvandlingen tillämpas endast när mellanliggande data används som indata för efterföljande steg. Det har ingen effekt på utdata även om det skickas till utdata.