Condividi tramite


DatasetDefinition Classe

Definisce una serie di passaggi che specificano come leggere e trasformare i dati in un set di dati.

Nota

Questa classe è deprecata. Per altre informazioni, vedere https://aka.ms/dataset-deprecation.

Un set di dati registrato in un'area di lavoro di Azure Machine Learning può avere più definizioni, ognuna creata chiamando update_definition. Ogni definizione ha un identificatore univoco. La definizione corrente è quella più recente creata.

Per set di dati non registrati, esiste solo una definizione.

Le definizioni dei set di dati supportano tutte le trasformazioni elencate per la <xref:azureml.dataprep.Dataflow> classe: vedere http://aka.ms/azureml/howto/transformdata. Per altre informazioni sulle definizioni dei set di dati, passare a https://aka.ms/azureml/howto/versiondata.

Inizializzare l'oggetto Definizione set di dati.

Ereditarietà
azureml.dataprep.api.engineless_dataflow.EnginelessDataflow
DatasetDefinition

Costruttore

DatasetDefinition(workspace=None, dataset_id=None, version_id=None, dataflow=None, dataflow_json=None, notes=None, etag=None, created_time=None, modified_time=None, state=None, deprecated_by_dataset_id=None, deprecated_by_definition_version=None, data_path=None, dataset=None, file_type='Unknown')

Parametri

Nome Descrizione
workspace
Necessario
str

L'area di lavoro in cui è registrato il set di dati.

dataset_id
Necessario
str

Identificatore del set di dati.

version_id
Necessario
str

Versione della definizione.

dataflow
Necessario
str

Oggetto Flusso di dati.

dataflow_json
Necessario

Json flusso di dati.

notes
Necessario
str

Informazioni facoltative sulla definizione.

etag
Necessario
str

Etag.

created_time
Necessario

Ora di creazione della definizione.

modified_time
Necessario

Ora dell'ultima modifica della definizione.

deprecated_by_dataset_id
Necessario
str

ID del set di dati che depreca questa definizione.

deprecated_by_definition_version
Necessario
str

Versione della definizione che depreca questa definizione.

data_path
Necessario

Percorso dati.

dataset
Necessario

Oggetto Set di dati padre.

Metodi

archive

Archiviare la definizione del set di dati.

create_snapshot

Creare uno snapshot del set di dati registrato.

deprecate

Deprecare il set di dati con un puntatore al nuovo set di dati.

reactivate

Riattivare la definizione del set di dati.

Funziona sulle definizioni del set di dati deprecate o archiviate.

to_pandas_dataframe

Creare un dataframe Pandas eseguendo la pipeline di trasformazione definita da questa definizione del set di dati.

to_spark_dataframe

Creare un dataframe Spark che può eseguire la pipeline di trasformazione definita da questo flusso di dati.

archive

Archiviare la definizione del set di dati.

archive()

Restituisce

Tipo Descrizione

Nessuno.

Commenti

Dopo l'archiviazione, qualsiasi tentativo di recupero del set di dati genera un errore. Se archiviato per caso, usare reactivate per attivarlo.

create_snapshot

Creare uno snapshot del set di dati registrato.

create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)

Parametri

Nome Descrizione
snapshot_name
Necessario
str

Nome dello snapshot. I nomi di snapshot devono essere univoci all'interno di un set di dati.

compute_target

Destinazione di calcolo per eseguire la creazione del profilo snapshot. Se omesso, viene usato il calcolo locale.

Valore predefinito: None
create_data_snapshot

Se True, verrà creata una copia materializzata dei dati.

Valore predefinito: False
target_datastore

Archivio dati di destinazione in cui salvare lo snapshot. Se omesso, lo snapshot verrà creato nell'archiviazione predefinita dell'area di lavoro.

Valore predefinito: None

Restituisce

Tipo Descrizione

Oggetto DatasetSnapshot.

Commenti

Gli snapshot acquisisce le statistiche di riepilogo temporale dei dati sottostanti e una copia facoltativa dei dati stessi. Per altre informazioni sulla creazione di snapshot, passare a https://aka.ms/azureml/howto/createsnapshots.

deprecate

Deprecare il set di dati con un puntatore al nuovo set di dati.

deprecate(deprecate_by_dataset_id, deprecated_by_definition_version=None)

Parametri

Nome Descrizione
deprecate_by_dataset_id
Necessario

ID del set di dati responsabile della deprecazione del set di dati corrente.

deprecated_by_definition_version
str

Versione della definizione del set di dati responsabile della deprecazione della definizione del set di dati corrente.

Valore predefinito: None

Restituisce

Tipo Descrizione

Nessuno.

Commenti

Le definizioni del set di dati deprecate registrano avvisi quando vengono usati. Per bloccare completamente l'utilizzo di una definizione del set di dati, archiviarla.

Se una definizione del set di dati è deprecata per caso, usarla reactivate per attivarla.

reactivate

Riattivare la definizione del set di dati.

Funziona sulle definizioni del set di dati deprecate o archiviate.

reactivate()

Restituisce

Tipo Descrizione

Nessuno.

to_pandas_dataframe

Creare un dataframe Pandas eseguendo la pipeline di trasformazione definita da questa definizione del set di dati.

to_pandas_dataframe()

Restituisce

Tipo Descrizione

DataFrame Pandas.

Commenti

Restituisce un dataframe Pandas completamente materializzato in memoria.

to_spark_dataframe

Creare un dataframe Spark che può eseguire la pipeline di trasformazione definita da questo flusso di dati.

to_spark_dataframe()

Restituisce

Tipo Descrizione

Un dataframe Spark.

Commenti

Il dataframe Spark restituito è solo un piano di esecuzione e non contiene effettivamente dati, poiché i dataframe Spark vengono valutati in modo più pigre.