PipelineOutputFileDataset Classe

Representa dados de pipeline intermédios promovidos para um Conjunto de Dados de Ficheiros do Azure Machine Learning.

Assim que os dados intermédios forem promovidos para um Conjunto de Dados do Azure Machine Learning, também serão consumidos como um Conjunto de Dados em vez de um DataReference nos passos subsequentes.

Crie dados intermédios que serão promovidos para um Conjunto de Dados do Azure Machine Learning.

Herança
PipelineOutputFileDataset

Construtor

PipelineOutputFileDataset(pipeline_data)

Parâmetros

pipeline_data
PipelineData
Necessário

O PipelineData que representa o resultado intermédio que será promovido a um Conjunto de Dados.

pipeline_data
PipelineData
Necessário

O PipelineData que representa o resultado intermédio que será promovido a um Conjunto de Dados.

Métodos

as_direct

Defina o modo de consumo do conjunto de dados como direto.

Neste modo, irá obter o ID do conjunto de dados e, no script, pode chamar Dataset.get_by_id para obter o conjunto de dados. run.input_datasets['{dataset_name}'] devolverá o Conjunto de Dados.

as_download

Defina o modo de consumo do conjunto de dados a transferir.

as_mount

Defina o modo de consumo do conjunto de dados a montar.

parse_delimited_files

Transforme o conjunto de dados de ficheiro intermédio num conjunto de dados tabular.

O conjunto de dados tabular é criado ao analisar os ficheiros delimitados apontados pela saída intermédia.

parse_parquet_files

Transforme o conjunto de dados de ficheiro intermédio num conjunto de dados tabular.

O conjunto de dados tabular é criado ao analisar os ficheiros parquet apontados pela saída intermédia.

as_direct

Defina o modo de consumo do conjunto de dados como direto.

Neste modo, irá obter o ID do conjunto de dados e, no script, pode chamar Dataset.get_by_id para obter o conjunto de dados. run.input_datasets['{dataset_name}'] devolverá o Conjunto de Dados.

as_direct()

Devoluções

PipelineOutputDataset modificado.

Tipo de retorno

as_download

Defina o modo de consumo do conjunto de dados a transferir.

as_download(path_on_compute=None)

Parâmetros

path_on_compute
str
valor predefinido: None

O caminho na computação para o qual transferir o conjunto de dados. A predefinição é Nenhuma, o que significa que o Azure Machine Learning escolhe um caminho para si.

Devoluções

PipelineOutputDataset modificado.

Tipo de retorno

as_mount

Defina o modo de consumo do conjunto de dados a montar.

as_mount(path_on_compute=None)

Parâmetros

path_on_compute
str
valor predefinido: None

O caminho na computação para o qual montar o conjunto de dados. A predefinição é Nenhuma, o que significa que o Azure Machine Learning escolhe um caminho para si.

Devoluções

PipelineOutputDataset modificado.

Tipo de retorno

parse_delimited_files

Transforme o conjunto de dados de ficheiro intermédio num conjunto de dados tabular.

O conjunto de dados tabular é criado ao analisar os ficheiros delimitados apontados pela saída intermédia.

parse_delimited_files(include_path=False, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, partition_format=None, file_extension='', set_column_types=None, quoted_line_breaks=False)

Parâmetros

include_path
bool
valor predefinido: False

Booleano para manter as informações do caminho como coluna no conjunto de dados. Predefinições para Falso. Isto é útil ao ler vários ficheiros e quer saber de que ficheiro teve origem um determinado registo ou manter informações úteis no caminho do ficheiro.

separator
str
valor predefinido: ,

O separador utilizado para dividir colunas.

header
PromoteHeadersBehavior
valor predefinido: PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS

Controla a forma como os cabeçalhos de coluna são promovidos ao ler a partir de ficheiros. As predefinições pressupõem que todos os ficheiros têm o mesmo cabeçalho.

partition_format
str
valor predefinido: None

Especifique o formato de partição do caminho. Predefinições para Nenhum. As informações de partição de cada caminho serão extraídas em colunas com base no formato especificado. Formatar a parte "{column_name}" cria a coluna de cadeia e "{column_name:aaaa/MM/dd/HH/mm/ss}" cria a coluna datetime, em que "aaaa", "MM", "dd", "HH", "mm" e "ss" são utilizados para extrair ano, mês, dia, hora, minuto e segundo para o tipo datetime. O formato deve começar a partir da posição da primeira chave de partição até ao fim do caminho do ficheiro. Por exemplo, dado o caminho ".. /Accounts/2019/01/data.csv" em que a partição é pelo nome e hora do departamento, partition_format='/{Department}/{PartitionDate:yyyyy/MM/dd}/data.csv' 'Department' com o valor 'Contas' e uma coluna datetime 'PartitionDate' com o valor '2019-01-01'.

file_extension
str
Necessário

A extensão de ficheiro dos ficheiros a ler. Apenas os ficheiros com esta extensão serão lidos a partir do diretório. O valor predefinido é ".csv" quando o separador é "", e ".tsv" quando o separador é separador e Nenhum de outra forma. Se Nenhum for transmitido, todos os ficheiros serão lidos independentemente da extensão (ou falta de extensão).

set_column_types
dict[str, DataType]
valor predefinido: None

Um dicionário para definir o tipo de dados de coluna, em que a chave é o nome da coluna e o valor é DataType. As colunas que não estão no dicionário permanecerão da cadeia de tipo. A transmissão de Nenhum não resultará em conversões. As entradas para colunas não encontradas nos dados de origem não irão causar um erro e serão ignoradas.

quoted_line_breaks
bool
valor predefinido: False

Se pretende processar novos carateres de linha dentro de aspas. Esta opção pode afetar o desempenho.

Devoluções

Devolve um conjunto de dados intermédio que será um conjunto de dados tabular.

Tipo de retorno

Observações

Esta transformação só será aplicada quando os dados intermédios forem consumidos como entrada do passo subsequente. Não tem qualquer efeito no resultado, mesmo que seja transmitido para o resultado.

parse_parquet_files

Transforme o conjunto de dados de ficheiro intermédio num conjunto de dados tabular.

O conjunto de dados tabular é criado ao analisar os ficheiros parquet apontados pela saída intermédia.

parse_parquet_files(include_path=False, partition_format=None, file_extension='.parquet', set_column_types=None)

Parâmetros

include_path
bool
valor predefinido: False

Booleano para manter as informações do caminho como coluna no conjunto de dados. Predefinições para Falso. Isto é útil ao ler vários ficheiros e quer saber de que ficheiro teve origem um determinado registo ou manter informações úteis no caminho do ficheiro.

partition_format
str
valor predefinido: None

Especifique o formato de partição do caminho. Predefinições para Nenhum. As informações de partição de cada caminho serão extraídas em colunas com base no formato especificado. Formatar a parte "{column_name}" cria a coluna de cadeia e "{column_name:aaaa/MM/dd/HH/mm/ss}" cria a coluna datetime, em que "aaaa", "MM", "dd", "HH", "mm" e "ss" são utilizados para extrair ano, mês, dia, hora, minuto e segundo para o tipo datetime. O formato deve começar a partir da posição da primeira chave de partição até ao fim do caminho do ficheiro. Por exemplo, dado o caminho ".. /Accounts/2019/01/01/data.parquet' onde a partição é por nome e hora do departamento, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' cria uma coluna de cadeia "Departamento" com o valor "Contas" e uma coluna datetime "PartitionDate" com o valor "2019-01-01".

file_extension
str
valor predefinido: .parquet

A extensão de ficheiro dos ficheiros a ler. Apenas os ficheiros com esta extensão serão lidos a partir do diretório. O valor predefinido é ".parquet". Se estiver definido como Nenhum, todos os ficheiros serão lidos independentemente da extensão (ou falta de extensão).

set_column_types
dict[str, DataType]
valor predefinido: None

Um dicionário para definir o tipo de dados de coluna, em que a chave é o nome da coluna e o valor é DataType. As colunas que não estão no dicionário permanecerão do tipo carregado a partir do ficheiro parquet. A transmissão de Nenhum não resultará em conversões. As entradas para colunas não encontradas nos dados de origem não irão causar um erro e serão ignoradas.

Devoluções

Devolve um conjunto de dados intermédio que será um conjunto de dados tabular.

Tipo de retorno

Observações

Esta transformação só será aplicada quando os dados intermédios forem consumidos como entrada do passo subsequente. Não tem qualquer efeito no resultado, mesmo que seja transmitido para o resultado.