DatasetSnapshot Classe
Gestisce gli snapshot del set di dati con operazioni per ottenere uno snapsot, restituire lo stato e convertirlo in un dataframe.
Nota
Questa classe è deprecata. Per altre informazioni, vedere https://aka.ms/dataset-deprecation.
Un oggetto DataSnapshot viene restituito dal create_snapshot metodo della Dataset classe.
Lo snapshot del set di dati è una combinazione di profilo e una copia materializzata facoltativa dei dati.
Per altre informazioni sugli snapshot del set di dati, passare a https://aka.ms/azureml/howto/createsnapshots
- Ereditarietà
-
builtins.objectDatasetSnapshot
Costruttore
DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)
Parametri
Nome | Descrizione |
---|---|
workspace
Necessario
|
<xref:azureml.core.Workspace.>
L'area di lavoro in cui è registrato il set di dati. |
snapshot_name
Necessario
|
Nome dello snapshot del set di dati. |
dataset_id
Necessario
|
Identificatore del set di dati. |
definition_version
Necessario
|
Versione di definizione del set di dati. |
time_stamp
Necessario
|
Tempo di creazione dello snapshot. |
profile_action_id
Necessario
|
ID azione del profilo snapshot. |
datastore_name
Necessario
|
Nome dell'archivio dati snapshot. |
relative_path
Necessario
|
Percorso relativo ai dati dello snapshot. |
dataset_name
Necessario
|
Nome del set di dati. |
Metodi
compare_profiles |
Confrontare il profilo del set di dati corrente con rhs_dataset profilo. Se i profili non esistono, questo metodo genererà un'eccezione. |
get |
Ottenere lo snapshot del set di dati in base al nome dello snapshot. |
get_all |
Ottenere tutti gli snapshot del set di dati specificato. |
get_profile |
Ottenere il profilo dello snapshot del set di dati. |
get_status |
Ottenere lo stato di creazione dello snapshot del set di dati. |
is_data_snapshot_available |
Verificare se è disponibile la copia materializzata dello snapshot. |
to_pandas_dataframe |
Creare un dataframe Pandas caricando i dati salvati con lo snapshot. |
to_spark_dataframe |
Creare un dataframe Spark caricando i dati salvati con lo snapshot. |
wait_for_completion |
Attendere il completamento dell'generaton Set di datiSnapshot. |
compare_profiles
Confrontare il profilo del set di dati corrente con rhs_dataset profilo.
Se i profili non esistono, questo metodo genererà un'eccezione.
compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)
Parametri
Nome | Descrizione |
---|---|
rhs_dataset_snapshot
Necessario
|
Snapshot del set di dati da confrontare con. |
include_columns
|
Elenco di nomi di colonna da includere nel confronto. Valore predefinito: None
|
exclude_columns
|
Elenco di nomi di colonna da escludere nel confronto. Valore predefinito: None
|
histogram_compare_method
|
Enumerazione che descrive il metodo di confronto, ad esempio DEVICESTEIN o ENERGY. Valore predefinito: HistogramCompareMethod.WASSERSTEIN
|
Restituisce
Tipo | Descrizione |
---|---|
<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>
|
Differenza tra i profili. |
get
Ottenere lo snapshot del set di dati in base al nome dello snapshot.
static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)
Parametri
Nome | Descrizione |
---|---|
workspace
Necessario
|
L'area di lavoro in cui è registrato il set di dati. |
snapshot_name
Necessario
|
Nome dello snapshot del set di dati. |
dataset_name
Necessario
|
Nome del set di dati. |
dataset_id
Necessario
|
Identificatore del set di dati. |
Restituisce
Tipo | Descrizione |
---|---|
Oggetto DatasetSnapshot. |
get_all
Ottenere tutti gli snapshot del set di dati specificato.
static get_all(workspace, dataset_name)
Parametri
Nome | Descrizione |
---|---|
workspace
Necessario
|
L'area di lavoro in cui è registrato il set di dati. |
dataset_name
Necessario
|
Nome del set di dati. |
Restituisce
Tipo | Descrizione |
---|---|
Elenco degli snapshot del set di dati |
get_profile
Ottenere il profilo dello snapshot del set di dati.
get_profile()
Restituisce
Tipo | Descrizione |
---|---|
<xref:azureml.dataprep.DataProfile>
|
DataProfile dello snapshot del set di dati |
get_status
Ottenere lo stato di creazione dello snapshot del set di dati.
get_status()
Restituisce
Tipo | Descrizione |
---|---|
Stato dello snapshot del set di dati. |
is_data_snapshot_available
Verificare se è disponibile la copia materializzata dello snapshot.
is_data_snapshot_available()
Restituisce
Tipo | Descrizione |
---|---|
True se lo snapshot dei dati è disponibile. |
to_pandas_dataframe
Creare un dataframe Pandas caricando i dati salvati con lo snapshot.
to_pandas_dataframe()
Restituisce
Tipo | Descrizione |
---|---|
DataFrame Pandas. |
Commenti
Il dataframe Pandas è completamente materializzato in memoria. Se lo snapshot è stato creato con create_data_snapshot=False
, viene generata un'eccezione. Per verificare se lo snapshot contiene dati, usare la funzione is_data_snapshot_available.
to_spark_dataframe
Creare un dataframe Spark caricando i dati salvati con lo snapshot.
to_spark_dataframe()
Restituisce
Tipo | Descrizione |
---|---|
Un dataframe Spark. |
Commenti
Il dataframe Spark restituito è solo un piano di esecuzione e non contiene effettivamente dati, poiché i dataframe Spark vengono valutati in modo più pigre. Se lo snapshot è stato creato con create_data_snapshot=False
, viene generata un'eccezione quando si tenta di accedere ai dati. Per verificare se lo snapshot contiene dati, usare is_data_snapshot_available.
wait_for_completion
Attendere il completamento dell'generaton Set di datiSnapshot.
wait_for_completion(show_output=True, status_update_frequency=10)
Parametri
Nome | Descrizione |
---|---|
show_output
|
Indica se il metodo stampa l'output. Valore predefinito: True
|
status_update_frequency
|
Frequenza di aggiornamento dello stato dell'esecuzione dell'azione in secondi. Valore predefinito: 10
|
Attributi
dataset_id
name
Ottenere il nome dello snapshot del set di dati.
Restituisce
Tipo | Descrizione |
---|---|
Nome snapshot del set di dati. |
workspace
Ottenere l'area di lavoro di Azure Machine Learning in cui è registrato il set di dati.
Restituisce
Tipo | Descrizione |
---|---|
Area di lavoro in cui è registrato il set di dati. |