Sdílet prostřednictvím


DatasetSnapshot Třída

Spravuje snímky datových sad pomocí operací, které můžou získat přichycení, vrátit její stav a převést ho na datový rámec.

Poznámka

Tato třída je zastaralá. Další informace naleznete v tématu https://aka.ms/dataset-deprecation.

Objekt DataSnapshot je vrácen z create_snapshot metody Dataset třídy .

Snímek datové sady je kombinací profilu a volitelné materializované kopie dat.

Další informace o snímcích datových sad najdete na https://aka.ms/azureml/howto/createsnapshots

Dědičnost
builtins.object
DatasetSnapshot

Konstruktor

DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)

Parametry

Name Description
workspace
Vyžadováno
<xref:azureml.core.Workspace.>

Pracovní prostor, ve který je datová sada zaregistrovaná.

snapshot_name
Vyžadováno
str

Název snímku datové sady.

dataset_id
Vyžadováno
str

Identifikátor datové sady.

definition_version
Vyžadováno
str

Definiční verze datové sady.

time_stamp
Vyžadováno

Čas vytvoření snímku.

profile_action_id
Vyžadováno
str

ID akce profilu snímku.

datastore_name
Vyžadováno
str

Název úložiště dat snímku.

relative_path
Vyžadováno
str

Relativní cesta k datům snímku.

dataset_name
Vyžadováno
str

Název datové sady.

Metody

compare_profiles

Porovnejte aktuální profil datové sady s profilem rhs_dataset.

Pokud profily neexistují, tato metoda vyvolá výjimku.

get

Získejte snímek datové sady podle názvu snímku.

get_all

Získejte všechny snímky dané datové sady.

get_profile

Získejte profil snímku datové sady.

get_status

Získejte stav vytvoření snímku datové sady.

is_data_snapshot_available

Zkontrolujte, jestli je dostupná materializovaná kopie snímku.

to_pandas_dataframe

Vytvořte datový rámec Pandas načtením dat uložených se snímkem.

to_spark_dataframe

Vytvořte datový rámec Sparku načtením dat uložených se snímkem.

wait_for_completion

Počkejte na dokončení generování DatasetSnapshot.

compare_profiles

Porovnejte aktuální profil datové sady s profilem rhs_dataset.

Pokud profily neexistují, tato metoda vyvolá výjimku.

compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)

Parametry

Name Description
rhs_dataset_snapshot
Vyžadováno

Snímek datové sady, se kterým se má porovnat.

include_columns

Seznam názvů sloupců, které se mají zahrnout do porovnání.

Default value: None
exclude_columns

Seznam názvů sloupců, které mají být vyloučeny z porovnání.

Default value: None
histogram_compare_method

Výčet popisující metodu porovnání, například: WASSERSTEIN nebo ENERGY.

Default value: HistogramCompareMethod.WASSERSTEIN

Návraty

Typ Description
<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>

Rozdíl mezi profily.

get

Získejte snímek datové sady podle názvu snímku.

static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)

Parametry

Name Description
workspace
Vyžadováno

Pracovní prostor, ve který je datová sada zaregistrovaná.

snapshot_name
Vyžadováno
str

Název snímku datové sady.

dataset_name
Vyžadováno

Název datové sady.

dataset_id
Vyžadováno

Identifikátor datové sady.

Návraty

Typ Description

A DatasetSnapshot objekt.

get_all

Získejte všechny snímky dané datové sady.

static get_all(workspace, dataset_name)

Parametry

Name Description
workspace
Vyžadováno

Pracovní prostor, ve který je datová sada zaregistrovaná.

dataset_name
Vyžadováno

Název datové sady.

Návraty

Typ Description

Seznam snímků datových sad

get_profile

Získejte profil snímku datové sady.

get_profile()

Návraty

Typ Description
<xref:azureml.dataprep.DataProfile>

DataProfile snímku datové sady

get_status

Získejte stav vytvoření snímku datové sady.

get_status()

Návraty

Typ Description
str

Stav snímku datové sady.

is_data_snapshot_available

Zkontrolujte, jestli je dostupná materializovaná kopie snímku.

is_data_snapshot_available()

Návraty

Typ Description

Hodnota True, pokud je k dispozici snímek dat.

to_pandas_dataframe

Vytvořte datový rámec Pandas načtením dat uložených se snímkem.

to_pandas_dataframe()

Návraty

Typ Description

Datový rámec Pandas.

Poznámky

Datový rámec Pandas je plně materializovaný v paměti. Pokud byl snímek vytvořen pomocí create_data_snapshot=Falsepříkazu , vyvolá se výjimka. Pokud chcete zkontrolovat, jestli snímek obsahuje data, použijte funkci is_data_snapshot_available.

to_spark_dataframe

Vytvořte datový rámec Sparku načtením dat uložených se snímkem.

to_spark_dataframe()

Návraty

Typ Description

Datový rámec Sparku.

Poznámky

Vrácený datový rámec Sparku je pouze plánem provádění a ve skutečnosti neobsahuje žádná data, protože datové rámce Sparku se líně vyhodnocují. Pokud byl snímek vytvořen pomocí create_data_snapshot=Falsepříkazu , vyvolá se při pokusu o přístup k datům výjimka. Pokud chcete zkontrolovat, jestli snímek obsahuje data, použijte is_data_snapshot_available.

wait_for_completion

Počkejte na dokončení generování DatasetSnapshot.

wait_for_completion(show_output=True, status_update_frequency=10)

Parametry

Name Description
show_output

Označuje, jestli metoda vytiskne výstup.

Default value: True
status_update_frequency
int

Frekvence aktualizace stavu spuštění akce v sekundách

Default value: 10

Atributy

dataset_id

Získejte identifikátor datové sady.

Návraty

Typ Description
str

ID datové sady.

name

Získejte název snímku datové sady.

Návraty

Typ Description
str

Název snímku datové sady.

workspace

Získejte pracovní prostor Azure Machine Learning, ve kterém je datová sada zaregistrovaná.

Návraty

Typ Description

Pracovní prostor, ve kterém je datová sada zaregistrovaná.