DatasetSnapshot Klasse
Verwaltet Datasetmomentaufnahmen mit Vorgängen, um eine Momentaufnahme abzurufen, ihren Status zurückzugeben und sie in einen Datenrahmen zu konvertieren.
Hinweis
Diese Klasse ist veraltet. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
Ein DataSnapshot-Objekt wird von der create_snapshot-Methode der Dataset-Klasse zurückgegeben.
Dataset Momentaufnahme ist eine Kombination aus Profil und einer optionalen materialisierten Kopie der Daten.
Weitere Informationen zu Datasetmomentaufnahmen finden Sie unter https://aka.ms/azureml/howto/createsnapshots
- Vererbung
-
builtins.objectDatasetSnapshot
Konstruktor
DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)
Parameter
Name | Beschreibung |
---|---|
workspace
Erforderlich
|
<xref:azureml.core.Workspace.>
Der Arbeitsbereich, in dem das Dataset registriert ist. |
snapshot_name
Erforderlich
|
Der Name der Datasetmomentaufnahme. |
dataset_id
Erforderlich
|
Der Bezeichner des Datasets. |
definition_version
Erforderlich
|
Die Definitionsversion des Datasets. |
time_stamp
Erforderlich
|
Die Momentaufnahme Erstellungszeit. |
profile_action_id
Erforderlich
|
Die Momentaufnahme-Profilaktions-ID. |
datastore_name
Erforderlich
|
Der name des Momentaufnahme Datenspeichers. |
relative_path
Erforderlich
|
Der relative Pfad zu den Momentaufnahme Daten. |
dataset_name
Erforderlich
|
Der Name des Datasets. |
Methoden
compare_profiles |
Vergleichen des aktuellen Datasetprofils mit dem Profil „rhs_dataset“. Bei nicht vorhandenen Profilen wird eine Ausnahme ausgelöst. |
get |
Abrufen der Momentaufnahme des Datasets anhand des Namens der Momentaufnahme. |
get_all |
Abrufen aller Momentaufnahmen des angegebenen Datasets. |
get_profile |
Abrufen des Datenprofils (DataProfile) der Datasetmomentaufnahme. |
get_status |
Abrufen des Erstellungsstatus der Datasetmomentaufnahme. |
is_data_snapshot_available |
Überprüfen, ob die materialisierte Kopie der Momentaufnahme verfügbar ist. |
to_pandas_dataframe |
Erstellen eines Pandas-Datenrahmens (DataFrame) durch Laden der mit der Momentaufnahme gespeicherten Daten. |
to_spark_dataframe |
Erstellen eines Spark-Datenrahmens (DataFrame) durch Laden der mit der Momentaufnahme gespeicherten Daten. |
wait_for_completion |
Warten, bis die Generierung der Datasetmomentaufnahme (DatasetSnapshot) abgeschlossen ist. |
compare_profiles
Vergleichen des aktuellen Datasetprofils mit dem Profil „rhs_dataset“.
Bei nicht vorhandenen Profilen wird eine Ausnahme ausgelöst.
compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)
Parameter
Name | Beschreibung |
---|---|
rhs_dataset_snapshot
Erforderlich
|
Die Datasetmomentaufnahme für den Vergleich. |
include_columns
|
Eine Liste mit Spaltennamen, die in den Vergleich einbezogen werden sollen. Standardwert: None
|
exclude_columns
|
Eine Liste mit Spaltennamen, die nicht in den Vergleich einbezogen werden sollen. Standardwert: None
|
histogram_compare_method
|
Eine Enumeration zur Beschreibung der Vergleichsmethode (beispielsweise WASSERSTEIN oder ENERGY). Standardwert: HistogramCompareMethod.WASSERSTEIN
|
Gibt zurück
Typ | Beschreibung |
---|---|
<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>
|
Der Unterschied zwischen den Profilen. |
get
Abrufen der Momentaufnahme des Datasets anhand des Namens der Momentaufnahme.
static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)
Parameter
Name | Beschreibung |
---|---|
workspace
Erforderlich
|
Der Arbeitsbereich, in dem das Dataset registriert ist. |
snapshot_name
Erforderlich
|
Der Name der Datasetmomentaufnahme. |
dataset_name
Erforderlich
|
Der Name des Datasets. |
dataset_id
Erforderlich
|
Der Bezeichner des Datasets. |
Gibt zurück
Typ | Beschreibung |
---|---|
Ein DatasetSnapshot-Objekt. |
get_all
Abrufen aller Momentaufnahmen des angegebenen Datasets.
static get_all(workspace, dataset_name)
Parameter
Name | Beschreibung |
---|---|
workspace
Erforderlich
|
Der Arbeitsbereich, in dem das Dataset registriert ist. |
dataset_name
Erforderlich
|
Der Name des Datasets. |
Gibt zurück
Typ | Beschreibung |
---|---|
Eine Liste mit Datasetmomentaufnahmen. |
get_profile
Abrufen des Datenprofils (DataProfile) der Datasetmomentaufnahme.
get_profile()
Gibt zurück
Typ | Beschreibung |
---|---|
<xref:azureml.dataprep.DataProfile>
|
Das Datenprofil (DataProfile) der Datasetmomentaufnahme. |
get_status
Abrufen des Erstellungsstatus der Datasetmomentaufnahme.
get_status()
Gibt zurück
Typ | Beschreibung |
---|---|
Der Status der Datasetmomentaufnahme. |
is_data_snapshot_available
Überprüfen, ob die materialisierte Kopie der Momentaufnahme verfügbar ist.
is_data_snapshot_available()
Gibt zurück
Typ | Beschreibung |
---|---|
„True“, wenn die Datenmomentaufnahme verfügbar ist. |
to_pandas_dataframe
Erstellen eines Pandas-Datenrahmens (DataFrame) durch Laden der mit der Momentaufnahme gespeicherten Daten.
to_pandas_dataframe()
Gibt zurück
Typ | Beschreibung |
---|---|
Ein Pandas-Datenrahmen. |
Hinweise
Der Pandas-Datenrahmen (DataFrame) wird vollständig im Arbeitsspeicher materialisiert. Wenn die Momentaufnahme mit create_data_snapshot=False
erstellt wurde, wird eine Ausnahme ausgelöst. Mithilfe der Funktion is_data_snapshot_available können Sie überprüfen, ob die Momentaufnahme Daten enthält.
to_spark_dataframe
Erstellen eines Spark-Datenrahmens (DataFrame) durch Laden der mit der Momentaufnahme gespeicherten Daten.
to_spark_dataframe()
Gibt zurück
Typ | Beschreibung |
---|---|
Ein Spark-Datenrahmen. |
Hinweise
Der zurückgegebene Spark-Datenrahmen ist nur ein Ausführungsplan, der keine tatsächlichen Daten enthält, da Spark-Datenrahmen verzögert ausgewertet werden. Falls die Momentaufnahme mit create_data_snapshot=False
erstellt wurde, wird eine Ausnahme ausgelöst, wenn Sie versuchen, auf die Daten zuzugreifen. Mithilfe von is_data_snapshot_available können Sie überprüfen, ob die Momentaufnahme Daten enthält.
wait_for_completion
Warten, bis die Generierung der Datasetmomentaufnahme (DatasetSnapshot) abgeschlossen ist.
wait_for_completion(show_output=True, status_update_frequency=10)
Parameter
Name | Beschreibung |
---|---|
show_output
|
Gibt an, ob die Methode die Ausgabe ausgibt. Standardwert: True
|
status_update_frequency
|
Die Aktualisierungshäufigkeit des Aktionsausführungsstatus in Sekunden. Standardwert: 10
|
Attribute
dataset_id
name
Abrufen des Namens der Datasetmomentaufnahme.
Gibt zurück
Typ | Beschreibung |
---|---|
Der Name der Datasetmomentaufnahme. |
workspace
Abrufen des Azure Machine Learning-Arbeitsbereichs, in dem das Dataset registriert ist.
Gibt zurück
Typ | Beschreibung |
---|---|
Der Arbeitsbereich, in dem das Dataset registriert ist. |