Condividi tramite


DatasetSnapshot Classe

Gestisce gli snapshot del set di dati con operazioni per ottenere uno snapsot, restituire lo stato e convertirlo in un dataframe.

Nota

Questa classe è deprecata. Per altre informazioni, vedere https://aka.ms/dataset-deprecation.

Un oggetto DataSnapshot viene restituito dal create_snapshot metodo della Dataset classe.

Lo snapshot del set di dati è una combinazione di profilo e una copia materializzata facoltativa dei dati.

Per altre informazioni sugli snapshot del set di dati, passare a https://aka.ms/azureml/howto/createsnapshots

Ereditarietà
builtins.object
DatasetSnapshot

Costruttore

DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)

Parametri

Nome Descrizione
workspace
Necessario
<xref:azureml.core.Workspace.>

L'area di lavoro in cui è registrato il set di dati.

snapshot_name
Necessario
str

Nome dello snapshot del set di dati.

dataset_id
Necessario
str

Identificatore del set di dati.

definition_version
Necessario
str

Versione di definizione del set di dati.

time_stamp
Necessario

Tempo di creazione dello snapshot.

profile_action_id
Necessario
str

ID azione del profilo snapshot.

datastore_name
Necessario
str

Nome dell'archivio dati snapshot.

relative_path
Necessario
str

Percorso relativo ai dati dello snapshot.

dataset_name
Necessario
str

Nome del set di dati.

Metodi

compare_profiles

Confrontare il profilo del set di dati corrente con rhs_dataset profilo.

Se i profili non esistono, questo metodo genererà un'eccezione.

get

Ottenere lo snapshot del set di dati in base al nome dello snapshot.

get_all

Ottenere tutti gli snapshot del set di dati specificato.

get_profile

Ottenere il profilo dello snapshot del set di dati.

get_status

Ottenere lo stato di creazione dello snapshot del set di dati.

is_data_snapshot_available

Verificare se è disponibile la copia materializzata dello snapshot.

to_pandas_dataframe

Creare un dataframe Pandas caricando i dati salvati con lo snapshot.

to_spark_dataframe

Creare un dataframe Spark caricando i dati salvati con lo snapshot.

wait_for_completion

Attendere il completamento dell'generaton Set di datiSnapshot.

compare_profiles

Confrontare il profilo del set di dati corrente con rhs_dataset profilo.

Se i profili non esistono, questo metodo genererà un'eccezione.

compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)

Parametri

Nome Descrizione
rhs_dataset_snapshot
Necessario

Snapshot del set di dati da confrontare con.

include_columns

Elenco di nomi di colonna da includere nel confronto.

Valore predefinito: None
exclude_columns

Elenco di nomi di colonna da escludere nel confronto.

Valore predefinito: None
histogram_compare_method

Enumerazione che descrive il metodo di confronto, ad esempio DEVICESTEIN o ENERGY.

Valore predefinito: HistogramCompareMethod.WASSERSTEIN

Restituisce

Tipo Descrizione
<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>

Differenza tra i profili.

get

Ottenere lo snapshot del set di dati in base al nome dello snapshot.

static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)

Parametri

Nome Descrizione
workspace
Necessario

L'area di lavoro in cui è registrato il set di dati.

snapshot_name
Necessario
str

Nome dello snapshot del set di dati.

dataset_name
Necessario

Nome del set di dati.

dataset_id
Necessario

Identificatore del set di dati.

Restituisce

Tipo Descrizione

Oggetto DatasetSnapshot.

get_all

Ottenere tutti gli snapshot del set di dati specificato.

static get_all(workspace, dataset_name)

Parametri

Nome Descrizione
workspace
Necessario

L'area di lavoro in cui è registrato il set di dati.

dataset_name
Necessario

Nome del set di dati.

Restituisce

Tipo Descrizione

Elenco degli snapshot del set di dati

get_profile

Ottenere il profilo dello snapshot del set di dati.

get_profile()

Restituisce

Tipo Descrizione
<xref:azureml.dataprep.DataProfile>

DataProfile dello snapshot del set di dati

get_status

Ottenere lo stato di creazione dello snapshot del set di dati.

get_status()

Restituisce

Tipo Descrizione
str

Stato dello snapshot del set di dati.

is_data_snapshot_available

Verificare se è disponibile la copia materializzata dello snapshot.

is_data_snapshot_available()

Restituisce

Tipo Descrizione

True se lo snapshot dei dati è disponibile.

to_pandas_dataframe

Creare un dataframe Pandas caricando i dati salvati con lo snapshot.

to_pandas_dataframe()

Restituisce

Tipo Descrizione

DataFrame Pandas.

Commenti

Il dataframe Pandas è completamente materializzato in memoria. Se lo snapshot è stato creato con create_data_snapshot=False, viene generata un'eccezione. Per verificare se lo snapshot contiene dati, usare la funzione is_data_snapshot_available.

to_spark_dataframe

Creare un dataframe Spark caricando i dati salvati con lo snapshot.

to_spark_dataframe()

Restituisce

Tipo Descrizione

Un dataframe Spark.

Commenti

Il dataframe Spark restituito è solo un piano di esecuzione e non contiene effettivamente dati, poiché i dataframe Spark vengono valutati in modo più pigre. Se lo snapshot è stato creato con create_data_snapshot=False, viene generata un'eccezione quando si tenta di accedere ai dati. Per verificare se lo snapshot contiene dati, usare is_data_snapshot_available.

wait_for_completion

Attendere il completamento dell'generaton Set di datiSnapshot.

wait_for_completion(show_output=True, status_update_frequency=10)

Parametri

Nome Descrizione
show_output

Indica se il metodo stampa l'output.

Valore predefinito: True
status_update_frequency
int

Frequenza di aggiornamento dello stato dell'esecuzione dell'azione in secondi.

Valore predefinito: 10

Attributi

dataset_id

Ottenere l'identificatore del set di dati.

Restituisce

Tipo Descrizione
str

ID set di dati.

name

Ottenere il nome dello snapshot del set di dati.

Restituisce

Tipo Descrizione
str

Nome snapshot del set di dati.

workspace

Ottenere l'area di lavoro di Azure Machine Learning in cui è registrato il set di dati.

Restituisce

Tipo Descrizione

Area di lavoro in cui è registrato il set di dati.