PipelineOutputFileDataset Klass
Representerar mellanliggande pipelinedata som befordrats till en Azure Machine Learning-fildatauppsättning.
När mellanliggande data har befordrats till en Azure Machine Learning-datauppsättning, kommer den också att användas som en datauppsättning i stället för en DataReference i efterföljande steg.
Skapa mellanliggande data som ska höjas upp till en Azure Machine Learning-datauppsättning.
- Arv
-
PipelineOutputFileDataset
Konstruktor
PipelineOutputFileDataset(pipeline_data)
Parametrar
- pipeline_data
- PipelineData
PipelineData som representerar mellanliggande utdata som kommer att höjas upp till en datauppsättning.
- pipeline_data
- PipelineData
PipelineData som representerar mellanliggande utdata som kommer att höjas upp till en datauppsättning.
Metoder
as_direct |
Ange det förbrukningsläge för datauppsättningen som ska dirigeras. I det här läget får du ID:t för datauppsättningen och i skriptet kan du anropa Dataset.get_by_id för att hämta datauppsättningen. run.input_datasets['{dataset_name}'] returnerar datauppsättningen. |
as_download |
Ange förbrukningsläget för datauppsättningen som ska laddas ned. |
as_mount |
Ange förbrukningsläget för datauppsättningen som montering. |
parse_delimited_files |
Transformera den mellanliggande fildatauppsättningen till en tabelldatauppsättning. Tabelldatauppsättningen skapas genom parsning av de avgränsade filer som pekas på av mellanliggande utdata. |
parse_parquet_files |
Transformera den mellanliggande fildatauppsättningen till en tabelldatauppsättning. Tabelldatauppsättningen skapas genom att parsa parquet-filerna som pekas på av mellanliggande utdata. |
as_direct
Ange det förbrukningsläge för datauppsättningen som ska dirigeras.
I det här läget får du ID:t för datauppsättningen och i skriptet kan du anropa Dataset.get_by_id för att hämta datauppsättningen. run.input_datasets['{dataset_name}'] returnerar datauppsättningen.
as_direct()
Returer
Den ändrade PipelineOutputDataset.
Returtyp
as_download
Ange förbrukningsläget för datauppsättningen som ska laddas ned.
as_download(path_on_compute=None)
Parametrar
- path_on_compute
- str
Sökvägen till beräkningen som datauppsättningen ska laddas ned till. Standardvärdet är Ingen, vilket innebär att Azure Machine Learning väljer en sökväg åt dig.
Returer
Den ändrade PipelineOutputDataset.
Returtyp
as_mount
Ange förbrukningsläget för datauppsättningen som montering.
as_mount(path_on_compute=None)
Parametrar
- path_on_compute
- str
Sökvägen till beräkningen som datauppsättningen ska monteras på. Standardvärdet är Ingen, vilket innebär att Azure Machine Learning väljer en sökväg åt dig.
Returer
Den ändrade PipelineOutputDataset.
Returtyp
parse_delimited_files
Transformera den mellanliggande fildatauppsättningen till en tabelldatauppsättning.
Tabelldatauppsättningen skapas genom parsning av de avgränsade filer som pekas på av mellanliggande utdata.
parse_delimited_files(include_path=False, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, partition_format=None, file_extension='', set_column_types=None, quoted_line_breaks=False)
Parametrar
- include_path
- bool
Booleskt värde för att behålla sökvägsinformation som kolumn i datauppsättningen. Standardvärdet är False. Detta är användbart när du läser flera filer och vill veta vilken fil en viss post kommer från, eller för att behålla användbar information i filsökvägen.
- header
- PromoteHeadersBehavior
Styr hur kolumnrubriker höjs upp när du läser från filer. Förutsätter som standard att alla filer har samma rubrik.
- partition_format
- str
Ange partitionsformatet för sökvägen. Standardvärdet är Ingen. Partitionsinformationen för varje sökväg extraheras till kolumner baserat på det angivna formatet. Formatdelen {column_name} skapar strängkolumnen och {column_name:åååå/MM/dd/HH/mm/ss} skapar datetime-kolumnen, där "åå", "MM", "dd", "HH", "mm" och "ss" används för att extrahera år, månad, dag, timme, minut och sekund för datetime-typen. Formatet bör börja från positionen för den första partitionsnyckeln till slutet av filsökvägen. Till exempel med tanke på sökvägen .. /Accounts/2019/01/01/data.csv" där partitionen är efter avdelningsnamn och tid, partition_format='/{Avdelning}/{PartitionDate:åååå/MM/dd}/data.csv' 'Avdelning' med värdet 'Konton' och en datetime-kolumn 'PartitionDate' med värdet '2019-01-01'.
- file_extension
- str
Filnamnstillägget för de filer som ska läsas. Endast filer med det här tillägget kommer att läsas från katalogen. Standardvärdet är ".csv" när avgränsaren är "," och ".tsv" när avgränsaren är tab, och Inget annat. Om Ingen skickas kommer alla filer att läsas oavsett deras tillägg (eller brist på tillägg).
En ordlista för att ange kolumndatatyp, där nyckeln är kolumnnamn och värde är DataType. Kolumner som inte finns i ordlistan förblir av typen sträng. Om ingen skickas resulterar det i inga konverteringar. Poster för kolumner som inte hittas i källdata orsakar inget fel och ignoreras.
- quoted_line_breaks
- bool
Om nya radtecken ska hanteras inom citattecken. Det här alternativet kan påverka prestanda.
Returer
Returnerar mellanliggande data som ska vara en tabelldatauppsättning.
Returtyp
Kommentarer
Den här omvandlingen tillämpas endast när mellanliggande data används som indata för efterföljande steg. Det har ingen effekt på utdata även om det skickas till utdata.
parse_parquet_files
Transformera den mellanliggande fildatauppsättningen till en tabelldatauppsättning.
Tabelldatauppsättningen skapas genom att parsa parquet-filerna som pekas på av mellanliggande utdata.
parse_parquet_files(include_path=False, partition_format=None, file_extension='.parquet', set_column_types=None)
Parametrar
- include_path
- bool
Booleskt värde för att behålla sökvägsinformation som kolumn i datauppsättningen. Standardvärdet är False. Detta är användbart när du läser flera filer och vill veta vilken fil en viss post kommer från, eller för att behålla användbar information i filsökvägen.
- partition_format
- str
Ange partitionsformatet för sökvägen. Standardvärdet är Ingen. Partitionsinformationen för varje sökväg extraheras till kolumner baserat på det angivna formatet. Formatdelen {column_name} skapar strängkolumnen och {column_name:åååå/MM/dd/HH/mm/ss} skapar datetime-kolumnen, där "åå", "MM", "dd", "HH", "mm" och "ss" används för att extrahera år, månad, dag, timme, minut och sekund för datetime-typen. Formatet bör börja från positionen för den första partitionsnyckeln till slutet av filsökvägen. Till exempel med tanke på sökvägen .. /Accounts/2019/01/01/data.parquet' där partitionen är efter avdelningsnamn och tid, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' skapar en strängkolumn 'Avdelning' med värdet 'Konton' och en datetime-kolumn 'PartitionDate' med värdet '2019-01-01'.
- file_extension
- str
Filnamnstillägget för de filer som ska läsas. Endast filer med det här tillägget kommer att läsas från katalogen. Standardvärdet är .parquet. Om det här är inställt på Ingen kommer alla filer att läsas oavsett deras tillägg (eller brist på tillägg).
En ordlista för att ange kolumndatatyp, där nyckeln är kolumnnamn och värde är DataType. Kolumner som inte finns i ordlistan förblir av den typ som läses in från parquet-filen. Om ingen skickas resulterar det i inga konverteringar. Poster för kolumner som inte hittas i källdata orsakar inget fel och ignoreras.
Returer
Returnerar mellanliggande data som ska vara en tabelldatauppsättning.
Returtyp
Kommentarer
Den här omvandlingen tillämpas endast när mellanliggande data används som indata för efterföljande steg. Det har ingen effekt på utdata även om det skickas till utdata.
Feedback
https://aka.ms/ContentUserFeedback.
Kommer snart: Under hela 2024 kommer vi att fasa ut GitHub-problem som feedbackmekanism för innehåll och ersätta det med ett nytt feedbacksystem. Mer information finns i:Skicka och visa feedback för