Freigeben über


DatasetSnapshot Klasse

Verwaltet Datasetmomentaufnahmen mit Vorgängen, um eine Momentaufnahme abzurufen, ihren Status zurückzugeben und sie in einen Datenrahmen zu konvertieren.

Hinweis

Diese Klasse ist veraltet. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

Ein DataSnapshot-Objekt wird von der create_snapshot-Methode der Dataset-Klasse zurückgegeben.

Dataset Momentaufnahme ist eine Kombination aus Profil und einer optionalen materialisierten Kopie der Daten.

Weitere Informationen zu Datasetmomentaufnahmen finden Sie unter https://aka.ms/azureml/howto/createsnapshots

Vererbung
builtins.object
DatasetSnapshot

Konstruktor

DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)

Parameter

Name Beschreibung
workspace
Erforderlich
<xref:azureml.core.Workspace.>

Der Arbeitsbereich, in dem das Dataset registriert ist.

snapshot_name
Erforderlich
str

Der Name der Datasetmomentaufnahme.

dataset_id
Erforderlich
str

Der Bezeichner des Datasets.

definition_version
Erforderlich
str

Die Definitionsversion des Datasets.

time_stamp
Erforderlich

Die Momentaufnahme Erstellungszeit.

profile_action_id
Erforderlich
str

Die Momentaufnahme-Profilaktions-ID.

datastore_name
Erforderlich
str

Der name des Momentaufnahme Datenspeichers.

relative_path
Erforderlich
str

Der relative Pfad zu den Momentaufnahme Daten.

dataset_name
Erforderlich
str

Der Name des Datasets.

Methoden

compare_profiles

Vergleichen des aktuellen Datasetprofils mit dem Profil „rhs_dataset“.

Bei nicht vorhandenen Profilen wird eine Ausnahme ausgelöst.

get

Abrufen der Momentaufnahme des Datasets anhand des Namens der Momentaufnahme.

get_all

Abrufen aller Momentaufnahmen des angegebenen Datasets.

get_profile

Abrufen des Datenprofils (DataProfile) der Datasetmomentaufnahme.

get_status

Abrufen des Erstellungsstatus der Datasetmomentaufnahme.

is_data_snapshot_available

Überprüfen, ob die materialisierte Kopie der Momentaufnahme verfügbar ist.

to_pandas_dataframe

Erstellen eines Pandas-Datenrahmens (DataFrame) durch Laden der mit der Momentaufnahme gespeicherten Daten.

to_spark_dataframe

Erstellen eines Spark-Datenrahmens (DataFrame) durch Laden der mit der Momentaufnahme gespeicherten Daten.

wait_for_completion

Warten, bis die Generierung der Datasetmomentaufnahme (DatasetSnapshot) abgeschlossen ist.

compare_profiles

Vergleichen des aktuellen Datasetprofils mit dem Profil „rhs_dataset“.

Bei nicht vorhandenen Profilen wird eine Ausnahme ausgelöst.

compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)

Parameter

Name Beschreibung
rhs_dataset_snapshot
Erforderlich

Die Datasetmomentaufnahme für den Vergleich.

include_columns

Eine Liste mit Spaltennamen, die in den Vergleich einbezogen werden sollen.

Standardwert: None
exclude_columns

Eine Liste mit Spaltennamen, die nicht in den Vergleich einbezogen werden sollen.

Standardwert: None
histogram_compare_method

Eine Enumeration zur Beschreibung der Vergleichsmethode (beispielsweise WASSERSTEIN oder ENERGY).

Standardwert: HistogramCompareMethod.WASSERSTEIN

Gibt zurück

Typ Beschreibung
<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>

Der Unterschied zwischen den Profilen.

get

Abrufen der Momentaufnahme des Datasets anhand des Namens der Momentaufnahme.

static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)

Parameter

Name Beschreibung
workspace
Erforderlich

Der Arbeitsbereich, in dem das Dataset registriert ist.

snapshot_name
Erforderlich
str

Der Name der Datasetmomentaufnahme.

dataset_name
Erforderlich

Der Name des Datasets.

dataset_id
Erforderlich

Der Bezeichner des Datasets.

Gibt zurück

Typ Beschreibung

Ein DatasetSnapshot-Objekt.

get_all

Abrufen aller Momentaufnahmen des angegebenen Datasets.

static get_all(workspace, dataset_name)

Parameter

Name Beschreibung
workspace
Erforderlich

Der Arbeitsbereich, in dem das Dataset registriert ist.

dataset_name
Erforderlich

Der Name des Datasets.

Gibt zurück

Typ Beschreibung

Eine Liste mit Datasetmomentaufnahmen.

get_profile

Abrufen des Datenprofils (DataProfile) der Datasetmomentaufnahme.

get_profile()

Gibt zurück

Typ Beschreibung
<xref:azureml.dataprep.DataProfile>

Das Datenprofil (DataProfile) der Datasetmomentaufnahme.

get_status

Abrufen des Erstellungsstatus der Datasetmomentaufnahme.

get_status()

Gibt zurück

Typ Beschreibung
str

Der Status der Datasetmomentaufnahme.

is_data_snapshot_available

Überprüfen, ob die materialisierte Kopie der Momentaufnahme verfügbar ist.

is_data_snapshot_available()

Gibt zurück

Typ Beschreibung

„True“, wenn die Datenmomentaufnahme verfügbar ist.

to_pandas_dataframe

Erstellen eines Pandas-Datenrahmens (DataFrame) durch Laden der mit der Momentaufnahme gespeicherten Daten.

to_pandas_dataframe()

Gibt zurück

Typ Beschreibung

Ein Pandas-Datenrahmen.

Hinweise

Der Pandas-Datenrahmen (DataFrame) wird vollständig im Arbeitsspeicher materialisiert. Wenn die Momentaufnahme mit create_data_snapshot=False erstellt wurde, wird eine Ausnahme ausgelöst. Mithilfe der Funktion is_data_snapshot_available können Sie überprüfen, ob die Momentaufnahme Daten enthält.

to_spark_dataframe

Erstellen eines Spark-Datenrahmens (DataFrame) durch Laden der mit der Momentaufnahme gespeicherten Daten.

to_spark_dataframe()

Gibt zurück

Typ Beschreibung

Ein Spark-Datenrahmen.

Hinweise

Der zurückgegebene Spark-Datenrahmen ist nur ein Ausführungsplan, der keine tatsächlichen Daten enthält, da Spark-Datenrahmen verzögert ausgewertet werden. Falls die Momentaufnahme mit create_data_snapshot=False erstellt wurde, wird eine Ausnahme ausgelöst, wenn Sie versuchen, auf die Daten zuzugreifen. Mithilfe von is_data_snapshot_available können Sie überprüfen, ob die Momentaufnahme Daten enthält.

wait_for_completion

Warten, bis die Generierung der Datasetmomentaufnahme (DatasetSnapshot) abgeschlossen ist.

wait_for_completion(show_output=True, status_update_frequency=10)

Parameter

Name Beschreibung
show_output

Gibt an, ob die Methode die Ausgabe ausgibt.

Standardwert: True
status_update_frequency
int

Die Aktualisierungshäufigkeit des Aktionsausführungsstatus in Sekunden.

Standardwert: 10

Attribute

dataset_id

Abrufen des Datasetbezeichners.

Gibt zurück

Typ Beschreibung
str

Die Dataset-ID.

name

Abrufen des Namens der Datasetmomentaufnahme.

Gibt zurück

Typ Beschreibung
str

Der Name der Datasetmomentaufnahme.

workspace

Abrufen des Azure Machine Learning-Arbeitsbereichs, in dem das Dataset registriert ist.

Gibt zurück

Typ Beschreibung

Der Arbeitsbereich, in dem das Dataset registriert ist.