Dela via


DatasetSnapshot Klass

Hanterar ögonblicksbilder av datauppsättningar med åtgärder för att få en snapsot, returnera dess status och konvertera den till en dataram.

Anteckning

Den här klassen är inaktuell. Mer information finns i https://aka.ms/dataset-deprecation.

Ett DataSnapshot-objekt returneras från create_snapshot -metoden i Dataset klassen .

Ögonblicksbild av datauppsättningen är en kombination av Profil och en valfri materialiserad kopia av data.

Mer information om ögonblicksbilder av datauppsättningar finns i https://aka.ms/azureml/howto/createsnapshots

Arv
builtins.object
DatasetSnapshot

Konstruktor

DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)

Parametrar

Name Description
workspace
Obligatorisk
<xref:azureml.core.Workspace.>

Arbetsytan som datauppsättningen är registrerad i.

snapshot_name
Obligatorisk
str

Namnet på ögonblicksbilden av datauppsättningen.

dataset_id
Obligatorisk
str

Identifieraren för datauppsättningen.

definition_version
Obligatorisk
str

Definitionsversionen av datauppsättningen.

time_stamp
Obligatorisk

Tiden då ögonblicksbilden skapades.

profile_action_id
Obligatorisk
str

Åtgärds-ID för ögonblicksbildsprofilen.

datastore_name
Obligatorisk
str

Namnet på datalagret för ögonblicksbilder.

relative_path
Obligatorisk
str

Den relativa sökvägen till ögonblicksbilddata.

dataset_name
Obligatorisk
str

Namnet på datauppsättningen.

Metoder

compare_profiles

Jämför den aktuella datauppsättningsprofilen med rhs_dataset profil.

Om profilerna inte finns utlöser den här metoden ett undantag.

get

Hämta ögonblicksbilden av datauppsättningen efter namnet på ögonblicksbilden.

get_all

Hämta alla ögonblicksbilder av den angivna datauppsättningen.

get_profile

Hämta profilen för ögonblicksbilden av datauppsättningen.

get_status

Hämta status för att skapa en ögonblicksbild av datauppsättningen.

is_data_snapshot_available

Kontrollera om den materialiserade kopian av ögonblicksbilden är tillgänglig.

to_pandas_dataframe

Skapa en Pandas DataFrame genom att läsa in data som sparats med ögonblicksbilden.

to_spark_dataframe

Skapa en Spark DataFrame genom att läsa in data som sparats med ögonblicksbilden.

wait_for_completion

Vänta tills DatasetSnapshot generaton har slutförts.

compare_profiles

Jämför den aktuella datauppsättningsprofilen med rhs_dataset profil.

Om profilerna inte finns utlöser den här metoden ett undantag.

compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)

Parametrar

Name Description
rhs_dataset_snapshot
Obligatorisk

Ögonblicksbilden av datamängden som ska jämföras med.

include_columns

En lista med kolumnnamn som ska ingå i jämförelsen.

Standardvärde: None
exclude_columns

En lista med kolumnnamn som ska undantas i jämförelsen.

Standardvärde: None
histogram_compare_method

En uppräkning som beskriver jämförelsemetoden, till exempel WASSERSTEIN eller ENERGY.

Standardvärde: HistogramCompareMethod.WASSERSTEIN

Returer

Typ Description
<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>

Skillnaden mellan profilerna.

get

Hämta ögonblicksbilden av datauppsättningen efter namnet på ögonblicksbilden.

static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)

Parametrar

Name Description
workspace
Obligatorisk

Arbetsytan som datauppsättningen är registrerad i.

snapshot_name
Obligatorisk
str

Namnet på ögonblicksbilden av datauppsättningen.

dataset_name
Obligatorisk

Namnet på datauppsättningen.

dataset_id
Obligatorisk

Identifieraren för datauppsättningen.

Returer

Typ Description

Ett DatasetSnapshot-objekt.

get_all

Hämta alla ögonblicksbilder av den angivna datauppsättningen.

static get_all(workspace, dataset_name)

Parametrar

Name Description
workspace
Obligatorisk

Arbetsytan som datauppsättningen är registrerad i.

dataset_name
Obligatorisk

Namnet på datauppsättningen.

Returer

Typ Description

En lista över ögonblicksbilder av datauppsättningar

get_profile

Hämta profilen för ögonblicksbilden av datauppsättningen.

get_profile()

Returer

Typ Description
<xref:azureml.dataprep.DataProfile>

DataProfile för ögonblicksbilden av datauppsättningen

get_status

Hämta status för att skapa en ögonblicksbild av datauppsättningen.

get_status()

Returer

Typ Description
str

Status för ögonblicksbild av datauppsättning.

is_data_snapshot_available

Kontrollera om den materialiserade kopian av ögonblicksbilden är tillgänglig.

is_data_snapshot_available()

Returer

Typ Description

Sant om ögonblicksbilden av data är tillgänglig.

to_pandas_dataframe

Skapa en Pandas DataFrame genom att läsa in data som sparats med ögonblicksbilden.

to_pandas_dataframe()

Returer

Typ Description

En Pandas DataFrame.

Kommentarer

Pandas DataFrame är helt materialiserad i minnet. Om ögonblicksbilden skapades med create_data_snapshot=Falsegenereras ett undantag. Om du vill kontrollera om ögonblicksbilden innehåller data använder du funktionen is_data_snapshot_available.

to_spark_dataframe

Skapa en Spark DataFrame genom att läsa in data som sparats med ögonblicksbilden.

to_spark_dataframe()

Returer

Typ Description

En Spark-dataram.

Kommentarer

Spark-dataramen som returneras är bara en körningsplan och innehåller faktiskt inga data, eftersom Spark-dataramar utvärderas lazily. Om ögonblicksbilden skapades med create_data_snapshot=Falsegenereras ett undantagsfel när du försöker komma åt data. Om du vill kontrollera om ögonblicksbilden innehåller data använder du is_data_snapshot_available.

wait_for_completion

Vänta tills DatasetSnapshot generaton har slutförts.

wait_for_completion(show_output=True, status_update_frequency=10)

Parametrar

Name Description
show_output

Anger om metoden ska skriva utdata.

Standardvärde: True
status_update_frequency
int

Statusuppdateringsfrekvensen för åtgärdskörningen i sekunder.

Standardvärde: 10

Attribut

dataset_id

Hämta datauppsättningsidentifieraren.

Returer

Typ Description
str

Datamängdens ID.

name

Hämta namnet på datauppsättningens ögonblicksbild.

Returer

Typ Description
str

Namnet på ögonblicksbilden av datamängden.

workspace

Hämta den Azure Machine Learning-arbetsyta där datauppsättningen är registrerad.

Returer

Typ Description

Arbetsytan där datauppsättningen är registrerad.