Compartilhar via


OutputTabularDatasetConfig Classe

Representa como copiar a saída de uma execução e promovê-la como um TabularDataset.

Inicialize um OutputTabularDatasetConfig.

Herança
OutputTabularDatasetConfig

Construtor

OutputTabularDatasetConfig(**kwargs)

Comentários

Você não deve chamar esse construtor diretamente, mas, em vez disso, deve criar um OutputFileDatasetConfig e, em seguida, chamar os métodos read_* correspondentes para convertê-lo em um OutputTabularDatasetConfig.

A maneira como a saída será copiada para o destino com um OutputTabularDatasetConfig é a mesma que com um OutputFileDatasetConfig. A diferença entre eles é que o conjunto de dados criado será um TabularDataset que contém todas as transformações especificadas.

Métodos

as_input

Especifica como consumir a saída como uma entrada nas etapas de pipeline subsequentes.

as_mount

Defina o modo da saída como montagem.

No modo de montagem, o diretório de saída será um diretório FUSE montado. Os arquivos gravados no diretório montado serão carregados quando o arquivo for fechado.

as_upload

Defina o modo da saída como upload.

No modo de upload, os arquivos gravados no diretório de saída serão carregados ao término do trabalho. Se o trabalho falhar ou for cancelado, o diretório de saída não será carregado.

drop_columns

Remove as colunas especificadas do conjunto de dados.

keep_columns

Mantém as colunas especificadas e remove todas as outras do conjunto de dados.

random_split

Divide os registros no conjunto de dados em duas partes aleatoriamente e aproximadamente pelo percentual especificado.

As configurações de saída resultantes terão seus nomes alterados, o primeiro terá _1 anexado ao nome e o segundo terá o _2 acrescentado ao nome. Se isso causar uma colisão de nome ou você desejar especificar um nome personalizado, defina manualmente seus nomes.

as_input

Especifica como consumir a saída como uma entrada nas etapas de pipeline subsequentes.

as_input(name=None)

Parâmetros

Nome Description
name
Obrigatório
str

O nome da entrada específica para a ser executada.

Retornos

Tipo Description

Uma instância DatasetConsumptionConfig que descreve como entregar os dados de entrada.

as_mount

Defina o modo da saída como montagem.

No modo de montagem, o diretório de saída será um diretório FUSE montado. Os arquivos gravados no diretório montado serão carregados quando o arquivo for fechado.

as_mount()

Retornos

Tipo Description

Uma instância de OutputTabularDatasetConfig com o modo definido como montagem.

as_upload

Defina o modo da saída como upload.

No modo de upload, os arquivos gravados no diretório de saída serão carregados ao término do trabalho. Se o trabalho falhar ou for cancelado, o diretório de saída não será carregado.

as_upload(overwrite=False, source_globs=None)

Parâmetros

Nome Description
overwrite
Obrigatório

Se os arquivos que já existem no destino devem ou não ser substituídos.

source_globs
Obrigatório

Padrões glob usados para filtrar arquivos que serão carregados.

Retornos

Tipo Description

Uma instância de OutputTabularDatasetConfig com o modo definido como upload.

drop_columns

Remove as colunas especificadas do conjunto de dados.

drop_columns(columns)

Parâmetros

Nome Description
columns
Obrigatório

O nome ou uma lista de nomes para as colunas a serem removidas.

Retornos

Tipo Description

Uma instância OutputTabularDatasetConfig com as colunas a serem descartadas.

keep_columns

Mantém as colunas especificadas e remove todas as outras do conjunto de dados.

keep_columns(columns)

Parâmetros

Nome Description
columns
Obrigatório

O nome ou uma lista de nomes para as colunas a serem mantidas.

Retornos

Tipo Description

Uma instância OutputTabularDatasetConfig com as colunas a serem mantidas.

random_split

Divide os registros no conjunto de dados em duas partes aleatoriamente e aproximadamente pelo percentual especificado.

As configurações de saída resultantes terão seus nomes alterados, o primeiro terá _1 anexado ao nome e o segundo terá o _2 acrescentado ao nome. Se isso causar uma colisão de nome ou você desejar especificar um nome personalizado, defina manualmente seus nomes.

random_split(percentage, seed=None)

Parâmetros

Nome Description
percentage
Obrigatório

A porcentagem aproximada para dividir o conjunto de dados. Precisa ser um número entre 0.0 e 1.0.

seed
Obrigatório
int

Semente opcional a ser usada para o gerador aleatório.

Retornos

Tipo Description

Retorna uma tupla de dois objetos OutputTabularDatasetConfig que representam os dois conjuntos de dados após a divisão.