DatasetDefinition Classe
Define uma série de passos que especificam como ler e transformar dados num Conjunto de Dados.
Nota
Esta classe foi preterida. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
Um Conjunto de dados registado numa área de trabalho do Azure Machine Learning pode ter várias definições, cada uma criada ao chamar update_definition. Cada definição tem um identificador exclusivo. A definição atual é a mais recente criada.
Para conjuntos de dados não registados, existe apenas uma definição.
As definições de conjuntos de dados suportam todas as transformações listadas para a <xref:azureml.dataprep.Dataflow> classe: consulte http://aka.ms/azureml/howto/transformdata. Para saber mais sobre definições de conjuntos de dados, aceda a https://aka.ms/azureml/howto/versiondata.
Inicialize o objeto de definição conjunto de dados.
- Herança
-
azureml.dataprep.api.engineless_dataflow.EnginelessDataflowDatasetDefinition
Construtor
DatasetDefinition(workspace=None, dataset_id=None, version_id=None, dataflow=None, dataflow_json=None, notes=None, etag=None, created_time=None, modified_time=None, state=None, deprecated_by_dataset_id=None, deprecated_by_definition_version=None, data_path=None, dataset=None, file_type='Unknown')
Parâmetros
- dataflow_json
O json do Fluxo de Dados.
Métodos
archive |
Arquivar a definição do conjunto de dados. |
create_snapshot |
Crie um instantâneo do Conjunto de Dados registado. |
deprecate |
Pretera o Conjunto de Dados com um ponteiro para o novo Conjunto de Dados. |
reactivate |
Reativar a definição do conjunto de dados. Funciona em definições de conjuntos de dados que foram preteridas ou arquivadas. |
to_pandas_dataframe |
Crie um dataframe do Pandas ao executar o pipeline de transformação definido por esta definição de conjunto de dados. |
to_spark_dataframe |
Crie um DataFrame do Spark que possa executar o pipeline de transformação definido por este Fluxo de Dados. |
archive
Arquivar a definição do conjunto de dados.
archive()
Devoluções
Nenhum.
Tipo de retorno
Observações
Após o arquivo, qualquer tentativa de obter o conjunto de dados resultará num erro. Se for arquivado por acidente, utilize reactivate para o ativar.
create_snapshot
Crie um instantâneo do Conjunto de Dados registado.
create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)
Parâmetros
- snapshot_name
- str
O nome do instantâneo. Os nomes dos instantâneos devem ser exclusivos num Conjunto de Dados.
- compute_target
- ComputeTarget ou str
O destino de computação para efetuar a criação do perfil de instantâneo. Se omitido, é utilizada a computação local.
- create_data_snapshot
- bool
Se For Verdadeiro, será criada uma cópia materializada dos dados.
- target_datastore
- Union[AbstractAzureStorageDatastore, str]
O arquivo de dados de destino onde guardar o instantâneo. Se omitido, o instantâneo será criado no armazenamento predefinido da área de trabalho.
Devoluções
Um objeto DatasetSnapshot.
Tipo de retorno
Observações
Os instantâneos capturam estatísticas de resumo do ponto no tempo dos dados subjacentes e uma cópia opcional dos próprios dados. Para saber mais sobre como criar instantâneos, aceda a https://aka.ms/azureml/howto/createsnapshots.
deprecate
Pretera o Conjunto de Dados com um ponteiro para o novo Conjunto de Dados.
deprecate(deprecate_by_dataset_id, deprecated_by_definition_version=None)
Parâmetros
- deprecate_by_dataset_id
- uuid
O ID do conjunto de dados responsável pela preterição do conjunto de dados atual.
- deprecated_by_definition_version
- str
A versão de definição do conjunto de dados responsável pela preterição da definição do conjunto de dados atual.
Devoluções
Nenhum.
Tipo de retorno
Observações
As definições de conjuntos de dados preteridas registarão avisos quando forem consumidas. Para bloquear completamente a utilização de uma definição de conjunto de dados, arquive-a.
Se uma definição de conjunto de dados for preterida por acidente, utilize reactivate para ativá-la.
reactivate
Reativar a definição do conjunto de dados.
Funciona em definições de conjuntos de dados que foram preteridas ou arquivadas.
reactivate()
Devoluções
Nenhum.
Tipo de retorno
to_pandas_dataframe
Crie um dataframe do Pandas ao executar o pipeline de transformação definido por esta definição de conjunto de dados.
to_pandas_dataframe()
Devoluções
Um DataFrame do Pandas.
Tipo de retorno
Observações
Devolver um DataFrame do Pandas totalmente materializado na memória.
to_spark_dataframe
Crie um DataFrame do Spark que possa executar o pipeline de transformação definido por este Fluxo de Dados.
to_spark_dataframe()
Devoluções
Um DataFrame do Spark.
Tipo de retorno
Observações
O Dataframe do Spark devolvido é apenas um plano de execução e não contém dados, uma vez que os Dataframes do Spark são avaliados de forma preguiçosa.
Comentários
https://aka.ms/ContentUserFeedback.
Brevemente: Ao longo de 2024, vamos descontinuar progressivamente o GitHub Issues como mecanismo de feedback para conteúdos e substituí-lo por um novo sistema de feedback. Para obter mais informações, veja:Submeter e ver comentários