PipelineOutputTabularDataset Classe

Representar dados de pipeline intermédios promovidos para um Conjunto de Dados Tabulares do Azure Machine Learning.

Assim que os dados intermédios forem promovidos para um Conjunto de Dados do Azure Machine Learning, também serão consumidos como um Conjunto de Dados em vez de uma DataReference nos passos subsequentes.

Crie dados intermédios que serão promovidos para um Conjunto de Dados do Azure Machine Learning.

Herança
PipelineOutputTabularDataset

Construtor

PipelineOutputTabularDataset(pipeline_output_dataset, additional_transformations)

Parâmetros

pipeline_output_dataset
PipelineOutputFileDataset
Necessário

O conjunto de dados de ficheiros que representa a saída intermédia que será transformada num Conjunto de Dados tabular.

additional_transformations
<xref:azureml.dataprep.Dataflow>
Necessário

Transformações adicionais que serão aplicadas sobre o conjunto de dados de ficheiros.

pipeline_output_dataset
PipelineOutputFileDataset
Necessário

O conjunto de dados de ficheiros que representa a saída intermédia que será transformada num Conjunto de Dados tabular.

additional_transformations
<xref:azureml.dataprep.Dataflow>
Necessário

Transformações adicionais que serão aplicadas sobre o conjunto de dados de ficheiros.

Métodos

create_input_binding

Crie um enlace de entrada.

drop_columns

Remova as colunas especificadas do conjunto de dados.

keep_columns

Mantenha as colunas especificadas e deixe cair todas as outras do conjunto de dados.

random_split

Divida os registos no conjunto de dados em duas partes aleatoriamente e aproximadamente pela percentagem especificada.

create_input_binding

Crie um enlace de entrada.

create_input_binding()

Devoluções

O InputPortBinding com este PipelineData como a origem.

Tipo de retorno

drop_columns

Remova as colunas especificadas do conjunto de dados.

drop_columns(columns)

Parâmetros

columns
str ou list[str]
Necessário

O nome ou uma lista de nomes para as colunas largarem.

Devoluções

Devolve novos dados intermédios com apenas as colunas especificadas removidas.

Tipo de retorno

keep_columns

Mantenha as colunas especificadas e deixe cair todas as outras do conjunto de dados.

keep_columns(columns)

Parâmetros

columns
str ou list[str]
Necessário

O nome ou uma lista de nomes das colunas a manter.

Devoluções

Devolve novos dados intermédios com apenas as colunas especificadas mantidas.

Tipo de retorno

random_split

Divida os registos no conjunto de dados em duas partes aleatoriamente e aproximadamente pela percentagem especificada.

random_split(percentage, seed=None)

Parâmetros

percentage
float
Necessário

A percentagem aproximada pela qual dividir o conjunto de dados. Tem de ser um número entre 0,0 e 1,0.

seed
int
valor predefinido: None

Semente opcional a utilizar para o gerador aleatório.

Devoluções

Devolve uma cadeia de identificação de novos objetos TabularDataset que representam os dois conjuntos de dados após a divisão.

Tipo de retorno