DatasetDefinition Classe
Define uma série de etapas que especificam como ler e transformar dados em um Conjunto de Dados.
Observação
Essa classe foi preterida. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
Um Conjunto de Dados registrado em um workspace do Azure Machine Learning pode ter várias definições, cada uma criada chamando update_definition. Cada definição tem um identificador exclusivo. A definição atual é a que foi criada mais recentemente.
Para Conjuntos de dados não registrados, há apenas uma definição.
As definições de Conjunto de Dados dão suporte a todas as transformações listadas para a classe <xref:azureml.dataprep.Dataflow>: consulte http://aka.ms/azureml/howto/transformdata. Para saber mais sobre Definições de Conjunto de Dados, vá para https://aka.ms/azureml/howto/versiondata.
Inicialize o objeto de definição de conjunto de dados.
- Herança
-
azureml.dataprep.api.engineless_dataflow.EnginelessDataflowDatasetDefinition
Construtor
DatasetDefinition(workspace=None, dataset_id=None, version_id=None, dataflow=None, dataflow_json=None, notes=None, etag=None, created_time=None, modified_time=None, state=None, deprecated_by_dataset_id=None, deprecated_by_definition_version=None, data_path=None, dataset=None, file_type='Unknown')
Parâmetros
Nome | Description |
---|---|
workspace
Obrigatório
|
O workspace em que o conjunto de dados está registrado. |
dataset_id
Obrigatório
|
O identificador do conjunto de dados. |
version_id
Obrigatório
|
A versão da definição. |
dataflow
Obrigatório
|
O objeto Dataflow. |
dataflow_json
Obrigatório
|
O json de fluxo de dados. |
notes
Obrigatório
|
Informações opcionais sobre a definição. |
etag
Obrigatório
|
Etag. |
created_time
Obrigatório
|
A hora de criação da definição. |
modified_time
Obrigatório
|
A hora da última modificação da definição. |
deprecated_by_dataset_id
Obrigatório
|
A ID do conjunto de dados que substitui essa definição. |
deprecated_by_definition_version
Obrigatório
|
A versão da definição que substitui essa definição. |
data_path
Obrigatório
|
O caminho dos dados. |
dataset
Obrigatório
|
O objeto de conjunto de dados pai. |
Métodos
archive |
Arquive a definição do conjunto de dados. |
create_snapshot |
Criar um instantâneo do Conjunto de dados registrado. |
deprecate |
Substitua o conjunto de dados por um ponteiro para o novo conjunto de dados. |
reactivate |
Reative a definição do conjunto de dados. Funciona em definições de dados que foram substituídas ou arquivadas. |
to_pandas_dataframe |
Crie um dataframe do Pandas executando o pipeline de transformação definido por esta definição de conjunto de dados. |
to_spark_dataframe |
Crie um Dataframe do Spark que possa executar o pipeline de transformação definido por este fluxo de dados. |
archive
Arquive a definição do conjunto de dados.
archive()
Retornos
Tipo | Description |
---|---|
Nenhum. |
Comentários
Após o arquivamento, qualquer tentativa de recuperar o conjunto de dados resultará em um erro. Se arquivado por acidente, use reactivate para ativá-lo.
create_snapshot
Criar um instantâneo do Conjunto de dados registrado.
create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)
Parâmetros
Nome | Description |
---|---|
snapshot_name
Obrigatório
|
O nome do instantâneo. Os nomes de instantâneos devem ser exclusivos em um Conjunto de dados. |
compute_target
|
ComputeTarget ou
str
O destino de computação para criar o perfil de instantâneo. Se omitido, a computação local será usada. Valor padrão: None
|
create_data_snapshot
|
Se for True, uma cópia materializada dos dados será criada. Valor padrão: False
|
target_datastore
|
O armazenamento de dados de destino onde salvar o instantâneo. Se omitido, o instantâneo será criado no armazenamento padrão do workspace. Valor padrão: None
|
Retornos
Tipo | Description |
---|---|
Um objeto DatasetSnapshot. |
Comentários
Os instantâneos capturam estatísticas resumidas pontuais dos dados subjacentes e uma cópia opcional dos próprios dados. Para saber mais sobre como criar instantâneos, acesse https://aka.ms/azureml/howto/createsnapshots.
deprecate
Substitua o conjunto de dados por um ponteiro para o novo conjunto de dados.
deprecate(deprecate_by_dataset_id, deprecated_by_definition_version=None)
Parâmetros
Nome | Description |
---|---|
deprecate_by_dataset_id
Obrigatório
|
O ID do conjunto de dados responsável pela substituição do conjunto de dados atual. |
deprecated_by_definition_version
|
A versão de definição do conjunto de dados que é responsável pela substituição da definição do conjunto de dados atual. Valor padrão: None
|
Retornos
Tipo | Description |
---|---|
Nenhum. |
Comentários
As definições do conjunto de dados substituídas registrarão avisos quando forem consumidas. Para bloquear completamente o consumo de uma definição de conjunto de dados, arquive-a.
Se uma definição de conjuntos de dados for substituída por acidente, use reactivate para ativá-la.
reactivate
Reative a definição do conjunto de dados.
Funciona em definições de dados que foram substituídas ou arquivadas.
reactivate()
Retornos
Tipo | Description |
---|---|
Nenhum. |
to_pandas_dataframe
Crie um dataframe do Pandas executando o pipeline de transformação definido por esta definição de conjunto de dados.
to_pandas_dataframe()
Retornos
Tipo | Description |
---|---|
Um DataFrame do Pandas. |
Comentários
Retorne um DataFrame do Pandas totalmente materializado na memória.
to_spark_dataframe
Crie um Dataframe do Spark que possa executar o pipeline de transformação definido por este fluxo de dados.
to_spark_dataframe()
Retornos
Tipo | Description |
---|---|
Um DataFrame do Spark. |
Comentários
O Dataframe do Spark retornado é apenas um plano de execução e não contém nenhum dado, já que os Dataframes do Spark são avaliados lentamente.