PipelineOutputFileDataset Classe

Referência

Representa dados de pipeline intermédios promovidos para um Conjunto de Dados de Ficheiros do Azure Machine Learning.

Assim que os dados intermédios forem promovidos para um Conjunto de Dados do Azure Machine Learning, também serão consumidos como um Conjunto de Dados em vez de um DataReference nos passos subsequentes.

Crie dados intermédios que serão promovidos para um Conjunto de Dados do Azure Machine Learning.

Herança: PipelineOutputAbstractDataset

PipelineOutputFileDataset

Construtor

PipelineOutputFileDataset(pipeline_data)

Parâmetros

pipeline_data: PipelineData

Necessário

O PipelineData que representa o resultado intermédio que será promovido a um Conjunto de Dados.

pipeline_data: PipelineData

Necessário

O PipelineData que representa o resultado intermédio que será promovido a um Conjunto de Dados.

Métodos

as_direct	Defina o modo de consumo do conjunto de dados como direto. Neste modo, irá obter o ID do conjunto de dados e, no script, pode chamar Dataset.get_by_id para obter o conjunto de dados. run.input_datasets['{dataset_name}'] devolverá o Conjunto de Dados.
as_download	Defina o modo de consumo do conjunto de dados a transferir.
as_mount	Defina o modo de consumo do conjunto de dados a montar.
parse_delimited_files	Transforme o conjunto de dados de ficheiro intermédio num conjunto de dados tabular. O conjunto de dados tabular é criado ao analisar os ficheiros delimitados apontados pela saída intermédia.
parse_parquet_files	Transforme o conjunto de dados de ficheiro intermédio num conjunto de dados tabular. O conjunto de dados tabular é criado ao analisar os ficheiros parquet apontados pela saída intermédia.

as_direct

Defina o modo de consumo do conjunto de dados como direto.

Neste modo, irá obter o ID do conjunto de dados e, no script, pode chamar Dataset.get_by_id para obter o conjunto de dados. run.input_datasets['{dataset_name}'] devolverá o Conjunto de Dados.

as_direct()

Devoluções

PipelineOutputDataset modificado.

Tipo de retorno

PipelineOutputFileDataset

as_download

Defina o modo de consumo do conjunto de dados a transferir.

as_download(path_on_compute=None)

Parâmetros

path_on_compute: str

valor predefinido: None

O caminho na computação para o qual transferir o conjunto de dados. A predefinição é Nenhuma, o que significa que o Azure Machine Learning escolhe um caminho para si.

Devoluções

PipelineOutputDataset modificado.

Tipo de retorno

PipelineOutputFileDataset

as_mount

Defina o modo de consumo do conjunto de dados a montar.

as_mount(path_on_compute=None)

Parâmetros

path_on_compute: str

valor predefinido: None

O caminho na computação para o qual montar o conjunto de dados. A predefinição é Nenhuma, o que significa que o Azure Machine Learning escolhe um caminho para si.

Devoluções

PipelineOutputDataset modificado.

Tipo de retorno

PipelineOutputFileDataset

parse_delimited_files

Transforme o conjunto de dados de ficheiro intermédio num conjunto de dados tabular.

O conjunto de dados tabular é criado ao analisar os ficheiros delimitados apontados pela saída intermédia.

parse_delimited_files(include_path=False, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, partition_format=None, file_extension='', set_column_types=None, quoted_line_breaks=False)

Parâmetros

include_path: bool

valor predefinido: False

Booleano para manter as informações do caminho como coluna no conjunto de dados. Predefinições para Falso. Isto é útil ao ler vários ficheiros e quer saber de que ficheiro teve origem um determinado registo ou manter informações úteis no caminho do ficheiro.

separator: str

valor predefinido: ,

O separador utilizado para dividir colunas.

header: PromoteHeadersBehavior

valor predefinido: PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS

Controla a forma como os cabeçalhos de coluna são promovidos ao ler a partir de ficheiros. As predefinições pressupõem que todos os ficheiros têm o mesmo cabeçalho.

partition_format: str

valor predefinido: None

Especifique o formato de partição do caminho. Predefinições para Nenhum. As informações de partição de cada caminho serão extraídas em colunas com base no formato especificado. Formatar a parte "{column_name}" cria a coluna de cadeia e "{column_name:aaaa/MM/dd/HH/mm/ss}" cria a coluna datetime, em que "aaaa", "MM", "dd", "HH", "mm" e "ss" são utilizados para extrair ano, mês, dia, hora, minuto e segundo para o tipo datetime. O formato deve começar a partir da posição da primeira chave de partição até ao fim do caminho do ficheiro. Por exemplo, dado o caminho ".. /Accounts/2019/01/data.csv" em que a partição é pelo nome e hora do departamento, partition_format='/{Department}/{PartitionDate:yyyyy/MM/dd}/data.csv' 'Department' com o valor 'Contas' e uma coluna datetime 'PartitionDate' com o valor '2019-01-01'.

file_extension: str

Necessário

A extensão de ficheiro dos ficheiros a ler. Apenas os ficheiros com esta extensão serão lidos a partir do diretório. O valor predefinido é ".csv" quando o separador é "", e ".tsv" quando o separador é separador e Nenhum de outra forma. Se Nenhum for transmitido, todos os ficheiros serão lidos independentemente da extensão (ou falta de extensão).

set_column_types: dict[str, DataType]

valor predefinido: None

Um dicionário para definir o tipo de dados de coluna, em que a chave é o nome da coluna e o valor é DataType. As colunas que não estão no dicionário permanecerão da cadeia de tipo. A transmissão de Nenhum não resultará em conversões. As entradas para colunas não encontradas nos dados de origem não irão causar um erro e serão ignoradas.

quoted_line_breaks: bool

valor predefinido: False

Se pretende processar novos carateres de linha dentro de aspas. Esta opção pode afetar o desempenho.

Devoluções

Devolve um conjunto de dados intermédio que será um conjunto de dados tabular.

Tipo de retorno

PipelineOutputTabularDataset

Observações

Esta transformação só será aplicada quando os dados intermédios forem consumidos como entrada do passo subsequente. Não tem qualquer efeito no resultado, mesmo que seja transmitido para o resultado.

parse_parquet_files

Transforme o conjunto de dados de ficheiro intermédio num conjunto de dados tabular.

O conjunto de dados tabular é criado ao analisar os ficheiros parquet apontados pela saída intermédia.

parse_parquet_files(include_path=False, partition_format=None, file_extension='.parquet', set_column_types=None)

Parâmetros

include_path: bool

valor predefinido: False

partition_format: str

valor predefinido: None

Especifique o formato de partição do caminho. Predefinições para Nenhum. As informações de partição de cada caminho serão extraídas em colunas com base no formato especificado. Formatar a parte "{column_name}" cria a coluna de cadeia e "{column_name:aaaa/MM/dd/HH/mm/ss}" cria a coluna datetime, em que "aaaa", "MM", "dd", "HH", "mm" e "ss" são utilizados para extrair ano, mês, dia, hora, minuto e segundo para o tipo datetime. O formato deve começar a partir da posição da primeira chave de partição até ao fim do caminho do ficheiro. Por exemplo, dado o caminho ".. /Accounts/2019/01/01/data.parquet' onde a partição é por nome e hora do departamento, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' cria uma coluna de cadeia "Departamento" com o valor "Contas" e uma coluna datetime "PartitionDate" com o valor "2019-01-01".

file_extension: str

valor predefinido: .parquet

A extensão de ficheiro dos ficheiros a ler. Apenas os ficheiros com esta extensão serão lidos a partir do diretório. O valor predefinido é ".parquet". Se estiver definido como Nenhum, todos os ficheiros serão lidos independentemente da extensão (ou falta de extensão).

set_column_types: dict[str, DataType]

valor predefinido: None

Um dicionário para definir o tipo de dados de coluna, em que a chave é o nome da coluna e o valor é DataType. As colunas que não estão no dicionário permanecerão do tipo carregado a partir do ficheiro parquet. A transmissão de Nenhum não resultará em conversões. As entradas para colunas não encontradas nos dados de origem não irão causar um erro e serão ignoradas.

Devoluções

Devolve um conjunto de dados intermédio que será um conjunto de dados tabular.

Tipo de retorno

PipelineOutputTabularDataset

PipelineOutputFileDataset Classe

Construtor

Parâmetros

Métodos

as_direct

Devoluções

Tipo de retorno

as_download

Parâmetros

Devoluções

Tipo de retorno

as_mount

Parâmetros

Devoluções

Tipo de retorno

parse_delimited_files

Parâmetros

Devoluções

Tipo de retorno

Observações

parse_parquet_files

Parâmetros

Devoluções

Tipo de retorno

Observações

Comentários

Comentários

Recursos adicionais