PipelineOutputFileDataset Klass

Referens

Representerar mellanliggande pipelinedata som befordrats till en Azure Machine Learning-fildatauppsättning.

När mellanliggande data har befordrats till en Azure Machine Learning-datauppsättning, kommer den också att användas som en datauppsättning i stället för en DataReference i efterföljande steg.

Skapa mellanliggande data som ska höjas upp till en Azure Machine Learning-datauppsättning.

Arv: PipelineOutputAbstractDataset

PipelineOutputFileDataset

Konstruktor

PipelineOutputFileDataset(pipeline_data)

Parametrar

pipeline_data: PipelineData

Obligatorisk

PipelineData som representerar mellanliggande utdata som kommer att höjas upp till en datauppsättning.

pipeline_data: PipelineData

Obligatorisk

PipelineData som representerar mellanliggande utdata som kommer att höjas upp till en datauppsättning.

Metoder

as_direct	Ange det förbrukningsläge för datauppsättningen som ska dirigeras. I det här läget får du ID:t för datauppsättningen och i skriptet kan du anropa Dataset.get_by_id för att hämta datauppsättningen. run.input_datasets['{dataset_name}'] returnerar datauppsättningen.
as_download	Ange förbrukningsläget för datauppsättningen som ska laddas ned.
as_mount	Ange förbrukningsläget för datauppsättningen som montering.
parse_delimited_files	Transformera den mellanliggande fildatauppsättningen till en tabelldatauppsättning. Tabelldatauppsättningen skapas genom parsning av de avgränsade filer som pekas på av mellanliggande utdata.
parse_parquet_files	Transformera den mellanliggande fildatauppsättningen till en tabelldatauppsättning. Tabelldatauppsättningen skapas genom att parsa parquet-filerna som pekas på av mellanliggande utdata.

as_direct

Ange det förbrukningsläge för datauppsättningen som ska dirigeras.

I det här läget får du ID:t för datauppsättningen och i skriptet kan du anropa Dataset.get_by_id för att hämta datauppsättningen. run.input_datasets['{dataset_name}'] returnerar datauppsättningen.

as_direct()

Returer

Den ändrade PipelineOutputDataset.

Returtyp

PipelineOutputFileDataset

as_download

Ange förbrukningsläget för datauppsättningen som ska laddas ned.

as_download(path_on_compute=None)

Parametrar

path_on_compute: str

standardvärde: None

Sökvägen till beräkningen som datauppsättningen ska laddas ned till. Standardvärdet är Ingen, vilket innebär att Azure Machine Learning väljer en sökväg åt dig.

Returer

Den ändrade PipelineOutputDataset.

Returtyp

PipelineOutputFileDataset

as_mount

Ange förbrukningsläget för datauppsättningen som montering.

as_mount(path_on_compute=None)

Parametrar

path_on_compute: str

standardvärde: None

Sökvägen till beräkningen som datauppsättningen ska monteras på. Standardvärdet är Ingen, vilket innebär att Azure Machine Learning väljer en sökväg åt dig.

Returer

Den ändrade PipelineOutputDataset.

Returtyp

PipelineOutputFileDataset

parse_delimited_files

Transformera den mellanliggande fildatauppsättningen till en tabelldatauppsättning.

Tabelldatauppsättningen skapas genom parsning av de avgränsade filer som pekas på av mellanliggande utdata.

parse_delimited_files(include_path=False, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, partition_format=None, file_extension='', set_column_types=None, quoted_line_breaks=False)

Parametrar

include_path: bool

standardvärde: False

Booleskt värde för att behålla sökvägsinformation som kolumn i datauppsättningen. Standardvärdet är False. Detta är användbart när du läser flera filer och vill veta vilken fil en viss post kommer från, eller för att behålla användbar information i filsökvägen.

separator: str

standardvärde: ,

Avgränsaren som används för att dela kolumner.

header: PromoteHeadersBehavior

standardvärde: PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS

Styr hur kolumnrubriker höjs upp när du läser från filer. Förutsätter som standard att alla filer har samma rubrik.

partition_format: str

standardvärde: None

Ange partitionsformatet för sökvägen. Standardvärdet är Ingen. Partitionsinformationen för varje sökväg extraheras till kolumner baserat på det angivna formatet. Formatdelen {column_name} skapar strängkolumnen och {column_name:åååå/MM/dd/HH/mm/ss} skapar datetime-kolumnen, där "åå", "MM", "dd", "HH", "mm" och "ss" används för att extrahera år, månad, dag, timme, minut och sekund för datetime-typen. Formatet bör börja från positionen för den första partitionsnyckeln till slutet av filsökvägen. Till exempel med tanke på sökvägen .. /Accounts/2019/01/01/data.csv" där partitionen är efter avdelningsnamn och tid, partition_format='/{Avdelning}/{PartitionDate:åååå/MM/dd}/data.csv' 'Avdelning' med värdet 'Konton' och en datetime-kolumn 'PartitionDate' med värdet '2019-01-01'.

file_extension: str

Obligatorisk

Filnamnstillägget för de filer som ska läsas. Endast filer med det här tillägget kommer att läsas från katalogen. Standardvärdet är ".csv" när avgränsaren är "," och ".tsv" när avgränsaren är tab, och Inget annat. Om Ingen skickas kommer alla filer att läsas oavsett deras tillägg (eller brist på tillägg).

set_column_types: dict[str, DataType]

standardvärde: None

En ordlista för att ange kolumndatatyp, där nyckeln är kolumnnamn och värde är DataType. Kolumner som inte finns i ordlistan förblir av typen sträng. Om ingen skickas resulterar det i inga konverteringar. Poster för kolumner som inte hittas i källdata orsakar inget fel och ignoreras.

quoted_line_breaks: bool

standardvärde: False

Om nya radtecken ska hanteras inom citattecken. Det här alternativet kan påverka prestanda.

Returer

Returnerar mellanliggande data som ska vara en tabelldatauppsättning.

Returtyp

PipelineOutputTabularDataset

Kommentarer

Den här omvandlingen tillämpas endast när mellanliggande data används som indata för efterföljande steg. Det har ingen effekt på utdata även om det skickas till utdata.

parse_parquet_files

Transformera den mellanliggande fildatauppsättningen till en tabelldatauppsättning.

Tabelldatauppsättningen skapas genom att parsa parquet-filerna som pekas på av mellanliggande utdata.

parse_parquet_files(include_path=False, partition_format=None, file_extension='.parquet', set_column_types=None)

Parametrar

include_path: bool

standardvärde: False

partition_format: str

standardvärde: None

Ange partitionsformatet för sökvägen. Standardvärdet är Ingen. Partitionsinformationen för varje sökväg extraheras till kolumner baserat på det angivna formatet. Formatdelen {column_name} skapar strängkolumnen och {column_name:åååå/MM/dd/HH/mm/ss} skapar datetime-kolumnen, där "åå", "MM", "dd", "HH", "mm" och "ss" används för att extrahera år, månad, dag, timme, minut och sekund för datetime-typen. Formatet bör börja från positionen för den första partitionsnyckeln till slutet av filsökvägen. Till exempel med tanke på sökvägen .. /Accounts/2019/01/01/data.parquet' där partitionen är efter avdelningsnamn och tid, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' skapar en strängkolumn 'Avdelning' med värdet 'Konton' och en datetime-kolumn 'PartitionDate' med värdet '2019-01-01'.

file_extension: str

standardvärde: .parquet

Filnamnstillägget för de filer som ska läsas. Endast filer med det här tillägget kommer att läsas från katalogen. Standardvärdet är .parquet. Om det här är inställt på Ingen kommer alla filer att läsas oavsett deras tillägg (eller brist på tillägg).

set_column_types: dict[str, DataType]

standardvärde: None

En ordlista för att ange kolumndatatyp, där nyckeln är kolumnnamn och värde är DataType. Kolumner som inte finns i ordlistan förblir av den typ som läses in från parquet-filen. Om ingen skickas resulterar det i inga konverteringar. Poster för kolumner som inte hittas i källdata orsakar inget fel och ignoreras.

Returer

Returnerar mellanliggande data som ska vara en tabelldatauppsättning.

Returtyp

PipelineOutputTabularDataset

Kommentarer

Den här omvandlingen tillämpas endast när mellanliggande data används som indata för efterföljande steg. Det har ingen effekt på utdata även om det skickas till utdata.

PipelineOutputFileDataset Klass

Konstruktor

Parametrar

Metoder

as_direct

Returer

Returtyp

as_download

Parametrar

Returer

Returtyp

as_mount

Parametrar

Returer

Returtyp

parse_delimited_files

Parametrar

Returer

Returtyp

Kommentarer

parse_parquet_files

Parametrar

Returer

Returtyp

Kommentarer

Feedback

Feedback

Ytterligare resurser