Dela via


DatasetSnapshot Klass

Hanterar ögonblicksbilder av datauppsättningar med åtgärder för att få en snapsot, returnera dess status och konvertera den till en dataram.

Anteckning

Den här klassen är inaktuell. Mer information finns i https://aka.ms/dataset-deprecation.

Ett DataSnapshot-objekt returneras från create_snapshot -metoden i Dataset klassen .

Ögonblicksbild av datauppsättningen är en kombination av Profil och en valfri materialiserad kopia av data.

Mer information om ögonblicksbilder av datauppsättningar finns i https://aka.ms/azureml/howto/createsnapshots

Arv
builtins.object
DatasetSnapshot

Konstruktor

DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)

Parametrar

workspace
<xref:azureml.core.Workspace.>
Obligatorisk

Arbetsytan som datauppsättningen är registrerad i.

snapshot_name
str
Obligatorisk

Namnet på ögonblicksbilden av datauppsättningen.

dataset_id
str
Obligatorisk

Identifieraren för datauppsättningen.

definition_version
str
Obligatorisk

Definitionsversionen av datauppsättningen.

time_stamp
datetime
Obligatorisk

Tiden då ögonblicksbilden skapades.

profile_action_id
str
Obligatorisk

Åtgärds-ID för ögonblicksbildsprofilen.

datastore_name
str
Obligatorisk

Namnet på datalagret för ögonblicksbilder.

relative_path
str
Obligatorisk

Den relativa sökvägen till ögonblicksbilddata.

dataset_name
str
Obligatorisk

Namnet på datauppsättningen.

Metoder

compare_profiles

Jämför den aktuella datauppsättningsprofilen med rhs_dataset profil.

Om profilerna inte finns utlöser den här metoden ett undantag.

get

Hämta ögonblicksbilden av datauppsättningen efter namnet på ögonblicksbilden.

get_all

Hämta alla ögonblicksbilder av den angivna datauppsättningen.

get_profile

Hämta profilen för ögonblicksbilden av datauppsättningen.

get_status

Hämta status för att skapa en ögonblicksbild av datauppsättningen.

is_data_snapshot_available

Kontrollera om den materialiserade kopian av ögonblicksbilden är tillgänglig.

to_pandas_dataframe

Skapa en Pandas DataFrame genom att läsa in data som sparats med ögonblicksbilden.

to_spark_dataframe

Skapa en Spark DataFrame genom att läsa in data som sparats med ögonblicksbilden.

wait_for_completion

Vänta tills DatasetSnapshot generaton har slutförts.

compare_profiles

Jämför den aktuella datauppsättningsprofilen med rhs_dataset profil.

Om profilerna inte finns utlöser den här metoden ett undantag.

compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)

Parametrar

rhs_dataset_snapshot
DatasetSnapshot
Obligatorisk

Ögonblicksbilden av datamängden som ska jämföras med.

include_columns
list[str]
standardvärde: None

En lista med kolumnnamn som ska ingå i jämförelsen.

exclude_columns
list[str]
standardvärde: None

En lista med kolumnnamn som ska undantas i jämförelsen.

histogram_compare_method
HistogramCompareMethod
standardvärde: HistogramCompareMethod.WASSERSTEIN

En uppräkning som beskriver jämförelsemetoden, till exempel WASSERSTEIN eller ENERGY.

Returer

Skillnaden mellan profilerna.

Returtyp

<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>

get

Hämta ögonblicksbilden av datauppsättningen efter namnet på ögonblicksbilden.

static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)

Parametrar

workspace
Workspace
Obligatorisk

Arbetsytan som datauppsättningen är registrerad i.

snapshot_name
str
Obligatorisk

Namnet på ögonblicksbilden av datauppsättningen.

dataset_name
Obligatorisk

Namnet på datauppsättningen.

dataset_id
uuid
Obligatorisk

Identifieraren för datauppsättningen.

Returer

Ett DatasetSnapshot-objekt.

Returtyp

get_all

Hämta alla ögonblicksbilder av den angivna datauppsättningen.

static get_all(workspace, dataset_name)

Parametrar

workspace
Workspace
Obligatorisk

Arbetsytan som datauppsättningen är registrerad i.

dataset_name
Obligatorisk

Namnet på datauppsättningen.

Returer

En lista över ögonblicksbilder av datauppsättningar

Returtyp

get_profile

Hämta profilen för ögonblicksbilden av datauppsättningen.

get_profile()

Returer

DataProfile för ögonblicksbilden av datauppsättningen

Returtyp

<xref:azureml.dataprep.DataProfile>

get_status

Hämta status för att skapa en ögonblicksbild av datauppsättningen.

get_status()

Returer

Status för ögonblicksbild av datauppsättning.

Returtyp

str

is_data_snapshot_available

Kontrollera om den materialiserade kopian av ögonblicksbilden är tillgänglig.

is_data_snapshot_available()

Returer

Sant om ögonblicksbilden av data är tillgänglig.

Returtyp

to_pandas_dataframe

Skapa en Pandas DataFrame genom att läsa in data som sparats med ögonblicksbilden.

to_pandas_dataframe()

Returer

En Pandas DataFrame.

Returtyp

Kommentarer

Pandas DataFrame är helt materialiserad i minnet. Om ögonblicksbilden skapades med create_data_snapshot=Falsegenereras ett undantag. Om du vill kontrollera om ögonblicksbilden innehåller data använder du funktionen is_data_snapshot_available.

to_spark_dataframe

Skapa en Spark DataFrame genom att läsa in data som sparats med ögonblicksbilden.

to_spark_dataframe()

Returer

En Spark-dataram.

Returtyp

Kommentarer

Spark-dataramen som returneras är bara en körningsplan och innehåller faktiskt inga data, eftersom Spark-dataramar utvärderas lazily. Om ögonblicksbilden skapades med create_data_snapshot=Falsegenereras ett undantagsfel när du försöker komma åt data. Om du vill kontrollera om ögonblicksbilden innehåller data använder du is_data_snapshot_available.

wait_for_completion

Vänta tills DatasetSnapshot generaton har slutförts.

wait_for_completion(show_output=True, status_update_frequency=10)

Parametrar

show_output
bool
standardvärde: True

Anger om metoden ska skriva utdata.

status_update_frequency
int
standardvärde: 10

Statusuppdateringsfrekvensen för åtgärdskörningen i sekunder.

Attribut

dataset_id

Hämta datauppsättningsidentifieraren.

Returer

Datamängdens ID.

Returtyp

str

name

Hämta namnet på datauppsättningens ögonblicksbild.

Returer

Namnet på ögonblicksbilden av datamängden.

Returtyp

str

workspace

Hämta den Azure Machine Learning-arbetsyta där datauppsättningen är registrerad.

Returer

Arbetsytan där datauppsättningen är registrerad.

Returtyp