DatasetDefinition Classe

Define uma série de passos que especificam como ler e transformar dados num Conjunto de Dados.

Nota

Esta classe foi preterida. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

Um Conjunto de dados registado numa área de trabalho do Azure Machine Learning pode ter várias definições, cada uma criada ao chamar update_definition. Cada definição tem um identificador exclusivo. A definição atual é a mais recente criada.

Para conjuntos de dados não registados, existe apenas uma definição.

As definições de conjuntos de dados suportam todas as transformações listadas para a <xref:azureml.dataprep.Dataflow> classe: consulte http://aka.ms/azureml/howto/transformdata. Para saber mais sobre definições de conjuntos de dados, aceda a https://aka.ms/azureml/howto/versiondata.

Inicialize o objeto de definição conjunto de dados.

Herança
azureml.dataprep.api.engineless_dataflow.EnginelessDataflow
DatasetDefinition

Construtor

DatasetDefinition(workspace=None, dataset_id=None, version_id=None, dataflow=None, dataflow_json=None, notes=None, etag=None, created_time=None, modified_time=None, state=None, deprecated_by_dataset_id=None, deprecated_by_definition_version=None, data_path=None, dataset=None, file_type='Unknown')

Parâmetros

workspace
str
Necessário

A área de trabalho na qual o Conjunto de Dados está registado.

dataset_id
str
Necessário

O identificador conjunto de dados.

version_id
str
Necessário

A versão de definição.

dataflow
str
Necessário

O objeto Fluxo de Dados.

dataflow_json
Necessário

O json do Fluxo de Dados.

notes
str
Necessário

Informações opcionais sobre a definição.

etag
str
Necessário

Etag.

created_time
datetime
Necessário

A hora de criação da definição.

modified_time
datetime
Necessário

A última hora modificada da definição.

deprecated_by_dataset_id
str
Necessário

O ID do Conjunto de Dados que pretere esta definição.

deprecated_by_definition_version
str
Necessário

A versão da definição que pretere esta definição.

data_path
DataPath
Necessário

O caminho dos dados.

dataset
Dataset
Necessário

O objeto principal conjunto de dados.

Métodos

archive

Arquivar a definição do conjunto de dados.

create_snapshot

Crie um instantâneo do Conjunto de Dados registado.

deprecate

Pretera o Conjunto de Dados com um ponteiro para o novo Conjunto de Dados.

reactivate

Reativar a definição do conjunto de dados.

Funciona em definições de conjuntos de dados que foram preteridas ou arquivadas.

to_pandas_dataframe

Crie um dataframe do Pandas ao executar o pipeline de transformação definido por esta definição de conjunto de dados.

to_spark_dataframe

Crie um DataFrame do Spark que possa executar o pipeline de transformação definido por este Fluxo de Dados.

archive

Arquivar a definição do conjunto de dados.

archive()

Devoluções

Nenhum.

Tipo de retorno

Observações

Após o arquivo, qualquer tentativa de obter o conjunto de dados resultará num erro. Se for arquivado por acidente, utilize reactivate para o ativar.

create_snapshot

Crie um instantâneo do Conjunto de Dados registado.

create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)

Parâmetros

snapshot_name
str
Necessário

O nome do instantâneo. Os nomes dos instantâneos devem ser exclusivos num Conjunto de Dados.

compute_target
ComputeTarget ou str
valor predefinido: None

O destino de computação para efetuar a criação do perfil de instantâneo. Se omitido, é utilizada a computação local.

create_data_snapshot
bool
valor predefinido: False

Se For Verdadeiro, será criada uma cópia materializada dos dados.

target_datastore
Union[AbstractAzureStorageDatastore, str]
valor predefinido: None

O arquivo de dados de destino onde guardar o instantâneo. Se omitido, o instantâneo será criado no armazenamento predefinido da área de trabalho.

Devoluções

Um objeto DatasetSnapshot.

Tipo de retorno

Observações

Os instantâneos capturam estatísticas de resumo do ponto no tempo dos dados subjacentes e uma cópia opcional dos próprios dados. Para saber mais sobre como criar instantâneos, aceda a https://aka.ms/azureml/howto/createsnapshots.

deprecate

Pretera o Conjunto de Dados com um ponteiro para o novo Conjunto de Dados.

deprecate(deprecate_by_dataset_id, deprecated_by_definition_version=None)

Parâmetros

deprecate_by_dataset_id
uuid
Necessário

O ID do conjunto de dados responsável pela preterição do conjunto de dados atual.

deprecated_by_definition_version
str
valor predefinido: None

A versão de definição do conjunto de dados responsável pela preterição da definição do conjunto de dados atual.

Devoluções

Nenhum.

Tipo de retorno

Observações

As definições de conjuntos de dados preteridas registarão avisos quando forem consumidas. Para bloquear completamente a utilização de uma definição de conjunto de dados, arquive-a.

Se uma definição de conjunto de dados for preterida por acidente, utilize reactivate para ativá-la.

reactivate

Reativar a definição do conjunto de dados.

Funciona em definições de conjuntos de dados que foram preteridas ou arquivadas.

reactivate()

Devoluções

Nenhum.

Tipo de retorno

to_pandas_dataframe

Crie um dataframe do Pandas ao executar o pipeline de transformação definido por esta definição de conjunto de dados.

to_pandas_dataframe()

Devoluções

Um DataFrame do Pandas.

Tipo de retorno

Observações

Devolver um DataFrame do Pandas totalmente materializado na memória.

to_spark_dataframe

Crie um DataFrame do Spark que possa executar o pipeline de transformação definido por este Fluxo de Dados.

to_spark_dataframe()

Devoluções

Um DataFrame do Spark.

Tipo de retorno

Observações

O Dataframe do Spark devolvido é apenas um plano de execução e não contém dados, uma vez que os Dataframes do Spark são avaliados de forma preguiçosa.