DatasetDefinition Classe

Referência

Define uma série de passos que especificam como ler e transformar dados num Conjunto de Dados.

Nota

Esta classe foi preterida. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

Um Conjunto de dados registado numa área de trabalho do Azure Machine Learning pode ter várias definições, cada uma criada ao chamar update_definition. Cada definição tem um identificador exclusivo. A definição atual é a mais recente criada.

Para conjuntos de dados não registados, existe apenas uma definição.

As definições de conjuntos de dados suportam todas as transformações listadas para a <xref:azureml.dataprep.Dataflow> classe: consulte http://aka.ms/azureml/howto/transformdata. Para saber mais sobre definições de conjuntos de dados, aceda a https://aka.ms/azureml/howto/versiondata.

Inicialize o objeto de definição conjunto de dados.

Herança: azureml.dataprep.api.engineless_dataflow.EnginelessDataflow

DatasetDefinition

Construtor

DatasetDefinition(workspace=None, dataset_id=None, version_id=None, dataflow=None, dataflow_json=None, notes=None, etag=None, created_time=None, modified_time=None, state=None, deprecated_by_dataset_id=None, deprecated_by_definition_version=None, data_path=None, dataset=None, file_type='Unknown')

Parâmetros

workspace: str

Necessário

A área de trabalho na qual o Conjunto de Dados está registado.

dataset_id: str

Necessário

O identificador conjunto de dados.

version_id: str

Necessário

A versão de definição.

dataflow: str

Necessário

O objeto Fluxo de Dados.

dataflow_json

Necessário

O json do Fluxo de Dados.

notes: str

Necessário

Informações opcionais sobre a definição.

etag: str

Necessário

Etag.

created_time: datetime

Necessário

A hora de criação da definição.

modified_time: datetime

Necessário

A última hora modificada da definição.

deprecated_by_dataset_id: str

Necessário

O ID do Conjunto de Dados que pretere esta definição.

deprecated_by_definition_version: str

Necessário

A versão da definição que pretere esta definição.

data_path: DataPath

Necessário

O caminho dos dados.

dataset: Dataset

Necessário

O objeto principal conjunto de dados.

Métodos

archive	Arquivar a definição do conjunto de dados.
create_snapshot	Crie um instantâneo do Conjunto de Dados registado.
deprecate	Pretera o Conjunto de Dados com um ponteiro para o novo Conjunto de Dados.
reactivate	Reativar a definição do conjunto de dados. Funciona em definições de conjuntos de dados que foram preteridas ou arquivadas.
to_pandas_dataframe	Crie um dataframe do Pandas ao executar o pipeline de transformação definido por esta definição de conjunto de dados.
to_spark_dataframe	Crie um DataFrame do Spark que possa executar o pipeline de transformação definido por este Fluxo de Dados.

create_snapshot

Crie um instantâneo do Conjunto de Dados registado.

create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)

Parâmetros

snapshot_name: str

Necessário

O nome do instantâneo. Os nomes dos instantâneos devem ser exclusivos num Conjunto de Dados.

compute_target: ComputeTarget ou str

valor predefinido: None

O destino de computação para efetuar a criação do perfil de instantâneo. Se omitido, é utilizada a computação local.

create_data_snapshot: bool

valor predefinido: False

Se For Verdadeiro, será criada uma cópia materializada dos dados.

target_datastore: Union[AbstractAzureStorageDatastore, str]

valor predefinido: None

O arquivo de dados de destino onde guardar o instantâneo. Se omitido, o instantâneo será criado no armazenamento predefinido da área de trabalho.

Devoluções

Um objeto DatasetSnapshot.

Tipo de retorno

DatasetSnapshot

Observações

Os instantâneos capturam estatísticas de resumo do ponto no tempo dos dados subjacentes e uma cópia opcional dos próprios dados. Para saber mais sobre como criar instantâneos, aceda a https://aka.ms/azureml/howto/createsnapshots.

deprecate

Pretera o Conjunto de Dados com um ponteiro para o novo Conjunto de Dados.

deprecate(deprecate_by_dataset_id, deprecated_by_definition_version=None)

Parâmetros

deprecate_by_dataset_id: uuid

Necessário

O ID do conjunto de dados responsável pela preterição do conjunto de dados atual.

deprecated_by_definition_version: str

valor predefinido: None

A versão de definição do conjunto de dados responsável pela preterição da definição do conjunto de dados atual.

Devoluções

Nenhum.

Tipo de retorno

None

Observações

As definições de conjuntos de dados preteridas registarão avisos quando forem consumidas. Para bloquear completamente a utilização de uma definição de conjunto de dados, arquive-a.

Se uma definição de conjunto de dados for preterida por acidente, utilize reactivate para ativá-la.

reactivate

Reativar a definição do conjunto de dados.

Funciona em definições de conjuntos de dados que foram preteridas ou arquivadas.

reactivate()

Devoluções

Nenhum.

Tipo de retorno

None

to_pandas_dataframe

Crie um dataframe do Pandas ao executar o pipeline de transformação definido por esta definição de conjunto de dados.

to_pandas_dataframe()

Devoluções

Um DataFrame do Pandas.

Tipo de retorno

DataFrame

Observações

Devolver um DataFrame do Pandas totalmente materializado na memória.

to_spark_dataframe

Crie um DataFrame do Spark que possa executar o pipeline de transformação definido por este Fluxo de Dados.

to_spark_dataframe()

Devoluções

Um DataFrame do Spark.

Tipo de retorno

DataFrame

Observações

O Dataframe do Spark devolvido é apenas um plano de execução e não contém dados, uma vez que os Dataframes do Spark são avaliados de forma preguiçosa.

DatasetDefinition Classe

Construtor

Parâmetros

Métodos

archive

Devoluções

Tipo de retorno

Observações

create_snapshot

Parâmetros

Devoluções

Tipo de retorno

Observações

deprecate

Parâmetros

Devoluções

Tipo de retorno

Observações

reactivate

Devoluções

Tipo de retorno

to_pandas_dataframe

Devoluções

Tipo de retorno

Observações

to_spark_dataframe

Devoluções

Tipo de retorno

Observações

Comentários

Comentários

Recursos adicionais