PipelineOutputFileDataset Classe
Representa dados de pipeline intermédios promovidos para um Conjunto de Dados de Ficheiros do Azure Machine Learning.
Assim que os dados intermédios forem promovidos para um Conjunto de Dados do Azure Machine Learning, também serão consumidos como um Conjunto de Dados em vez de um DataReference nos passos subsequentes.
Crie dados intermédios que serão promovidos para um Conjunto de Dados do Azure Machine Learning.
- Herança
-
PipelineOutputFileDataset
Construtor
PipelineOutputFileDataset(pipeline_data)
Parâmetros
- pipeline_data
- PipelineData
O PipelineData que representa o resultado intermédio que será promovido a um Conjunto de Dados.
- pipeline_data
- PipelineData
O PipelineData que representa o resultado intermédio que será promovido a um Conjunto de Dados.
Métodos
as_direct |
Defina o modo de consumo do conjunto de dados como direto. Neste modo, irá obter o ID do conjunto de dados e, no script, pode chamar Dataset.get_by_id para obter o conjunto de dados. run.input_datasets['{dataset_name}'] devolverá o Conjunto de Dados. |
as_download |
Defina o modo de consumo do conjunto de dados a transferir. |
as_mount |
Defina o modo de consumo do conjunto de dados a montar. |
parse_delimited_files |
Transforme o conjunto de dados de ficheiro intermédio num conjunto de dados tabular. O conjunto de dados tabular é criado ao analisar os ficheiros delimitados apontados pela saída intermédia. |
parse_parquet_files |
Transforme o conjunto de dados de ficheiro intermédio num conjunto de dados tabular. O conjunto de dados tabular é criado ao analisar os ficheiros parquet apontados pela saída intermédia. |
as_direct
Defina o modo de consumo do conjunto de dados como direto.
Neste modo, irá obter o ID do conjunto de dados e, no script, pode chamar Dataset.get_by_id para obter o conjunto de dados. run.input_datasets['{dataset_name}'] devolverá o Conjunto de Dados.
as_direct()
Devoluções
PipelineOutputDataset modificado.
Tipo de retorno
as_download
Defina o modo de consumo do conjunto de dados a transferir.
as_download(path_on_compute=None)
Parâmetros
- path_on_compute
- str
O caminho na computação para o qual transferir o conjunto de dados. A predefinição é Nenhuma, o que significa que o Azure Machine Learning escolhe um caminho para si.
Devoluções
PipelineOutputDataset modificado.
Tipo de retorno
as_mount
Defina o modo de consumo do conjunto de dados a montar.
as_mount(path_on_compute=None)
Parâmetros
- path_on_compute
- str
O caminho na computação para o qual montar o conjunto de dados. A predefinição é Nenhuma, o que significa que o Azure Machine Learning escolhe um caminho para si.
Devoluções
PipelineOutputDataset modificado.
Tipo de retorno
parse_delimited_files
Transforme o conjunto de dados de ficheiro intermédio num conjunto de dados tabular.
O conjunto de dados tabular é criado ao analisar os ficheiros delimitados apontados pela saída intermédia.
parse_delimited_files(include_path=False, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, partition_format=None, file_extension='', set_column_types=None, quoted_line_breaks=False)
Parâmetros
- include_path
- bool
Booleano para manter as informações do caminho como coluna no conjunto de dados. Predefinições para Falso. Isto é útil ao ler vários ficheiros e quer saber de que ficheiro teve origem um determinado registo ou manter informações úteis no caminho do ficheiro.
- header
- PromoteHeadersBehavior
Controla a forma como os cabeçalhos de coluna são promovidos ao ler a partir de ficheiros. As predefinições pressupõem que todos os ficheiros têm o mesmo cabeçalho.
- partition_format
- str
Especifique o formato de partição do caminho. Predefinições para Nenhum. As informações de partição de cada caminho serão extraídas em colunas com base no formato especificado. Formatar a parte "{column_name}" cria a coluna de cadeia e "{column_name:aaaa/MM/dd/HH/mm/ss}" cria a coluna datetime, em que "aaaa", "MM", "dd", "HH", "mm" e "ss" são utilizados para extrair ano, mês, dia, hora, minuto e segundo para o tipo datetime. O formato deve começar a partir da posição da primeira chave de partição até ao fim do caminho do ficheiro. Por exemplo, dado o caminho ".. /Accounts/2019/01/data.csv" em que a partição é pelo nome e hora do departamento, partition_format='/{Department}/{PartitionDate:yyyyy/MM/dd}/data.csv' 'Department' com o valor 'Contas' e uma coluna datetime 'PartitionDate' com o valor '2019-01-01'.
- file_extension
- str
A extensão de ficheiro dos ficheiros a ler. Apenas os ficheiros com esta extensão serão lidos a partir do diretório. O valor predefinido é ".csv" quando o separador é "", e ".tsv" quando o separador é separador e Nenhum de outra forma. Se Nenhum for transmitido, todos os ficheiros serão lidos independentemente da extensão (ou falta de extensão).
Um dicionário para definir o tipo de dados de coluna, em que a chave é o nome da coluna e o valor é DataType. As colunas que não estão no dicionário permanecerão da cadeia de tipo. A transmissão de Nenhum não resultará em conversões. As entradas para colunas não encontradas nos dados de origem não irão causar um erro e serão ignoradas.
- quoted_line_breaks
- bool
Se pretende processar novos carateres de linha dentro de aspas. Esta opção pode afetar o desempenho.
Devoluções
Devolve um conjunto de dados intermédio que será um conjunto de dados tabular.
Tipo de retorno
Observações
Esta transformação só será aplicada quando os dados intermédios forem consumidos como entrada do passo subsequente. Não tem qualquer efeito no resultado, mesmo que seja transmitido para o resultado.
parse_parquet_files
Transforme o conjunto de dados de ficheiro intermédio num conjunto de dados tabular.
O conjunto de dados tabular é criado ao analisar os ficheiros parquet apontados pela saída intermédia.
parse_parquet_files(include_path=False, partition_format=None, file_extension='.parquet', set_column_types=None)
Parâmetros
- include_path
- bool
Booleano para manter as informações do caminho como coluna no conjunto de dados. Predefinições para Falso. Isto é útil ao ler vários ficheiros e quer saber de que ficheiro teve origem um determinado registo ou manter informações úteis no caminho do ficheiro.
- partition_format
- str
Especifique o formato de partição do caminho. Predefinições para Nenhum. As informações de partição de cada caminho serão extraídas em colunas com base no formato especificado. Formatar a parte "{column_name}" cria a coluna de cadeia e "{column_name:aaaa/MM/dd/HH/mm/ss}" cria a coluna datetime, em que "aaaa", "MM", "dd", "HH", "mm" e "ss" são utilizados para extrair ano, mês, dia, hora, minuto e segundo para o tipo datetime. O formato deve começar a partir da posição da primeira chave de partição até ao fim do caminho do ficheiro. Por exemplo, dado o caminho ".. /Accounts/2019/01/01/data.parquet' onde a partição é por nome e hora do departamento, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' cria uma coluna de cadeia "Departamento" com o valor "Contas" e uma coluna datetime "PartitionDate" com o valor "2019-01-01".
- file_extension
- str
A extensão de ficheiro dos ficheiros a ler. Apenas os ficheiros com esta extensão serão lidos a partir do diretório. O valor predefinido é ".parquet". Se estiver definido como Nenhum, todos os ficheiros serão lidos independentemente da extensão (ou falta de extensão).
Um dicionário para definir o tipo de dados de coluna, em que a chave é o nome da coluna e o valor é DataType. As colunas que não estão no dicionário permanecerão do tipo carregado a partir do ficheiro parquet. A transmissão de Nenhum não resultará em conversões. As entradas para colunas não encontradas nos dados de origem não irão causar um erro e serão ignoradas.
Devoluções
Devolve um conjunto de dados intermédio que será um conjunto de dados tabular.
Tipo de retorno
Observações
Esta transformação só será aplicada quando os dados intermédios forem consumidos como entrada do passo subsequente. Não tem qualquer efeito no resultado, mesmo que seja transmitido para o resultado.
Comentários
https://aka.ms/ContentUserFeedback.
Brevemente: Ao longo de 2024, vamos descontinuar progressivamente o GitHub Issues como mecanismo de feedback para conteúdos e substituí-lo por um novo sistema de feedback. Para obter mais informações, veja:Submeter e ver comentários