DatasetSnapshot Klass

Referens

Hanterar ögonblicksbilder av datauppsättningar med åtgärder för att få en snapsot, returnera dess status och konvertera den till en dataram.

Anteckning

Den här klassen är inaktuell. Mer information finns i https://aka.ms/dataset-deprecation.

Ett DataSnapshot-objekt returneras från create_snapshot -metoden i Dataset klassen .

Ögonblicksbild av datauppsättningen är en kombination av Profil och en valfri materialiserad kopia av data.

Mer information om ögonblicksbilder av datauppsättningar finns i https://aka.ms/azureml/howto/createsnapshots

Arv: builtins.object

DatasetSnapshot

Konstruktor

DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)

Parametrar

workspace: <xref:azureml.core.Workspace.>

Obligatorisk

Arbetsytan som datauppsättningen är registrerad i.

snapshot_name: str

Obligatorisk

Namnet på ögonblicksbilden av datauppsättningen.

dataset_id: str

Obligatorisk

Identifieraren för datauppsättningen.

definition_version: str

Obligatorisk

Definitionsversionen av datauppsättningen.

time_stamp: datetime

Obligatorisk

Tiden då ögonblicksbilden skapades.

profile_action_id: str

Obligatorisk

Åtgärds-ID för ögonblicksbildsprofilen.

datastore_name: str

Obligatorisk

Namnet på datalagret för ögonblicksbilder.

relative_path: str

Obligatorisk

Den relativa sökvägen till ögonblicksbilddata.

dataset_name: str

Obligatorisk

Namnet på datauppsättningen.

Metoder

compare_profiles	Jämför den aktuella datauppsättningsprofilen med rhs_dataset profil. Om profilerna inte finns utlöser den här metoden ett undantag.
get	Hämta ögonblicksbilden av datauppsättningen efter namnet på ögonblicksbilden.
get_all	Hämta alla ögonblicksbilder av den angivna datauppsättningen.
get_profile	Hämta profilen för ögonblicksbilden av datauppsättningen.
get_status	Hämta status för att skapa en ögonblicksbild av datauppsättningen.
is_data_snapshot_available	Kontrollera om den materialiserade kopian av ögonblicksbilden är tillgänglig.
to_pandas_dataframe	Skapa en Pandas DataFrame genom att läsa in data som sparats med ögonblicksbilden.
to_spark_dataframe	Skapa en Spark DataFrame genom att läsa in data som sparats med ögonblicksbilden.
wait_for_completion	Vänta tills DatasetSnapshot generaton har slutförts.

compare_profiles

Jämför den aktuella datauppsättningsprofilen med rhs_dataset profil.

Om profilerna inte finns utlöser den här metoden ett undantag.

compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)

Parametrar

rhs_dataset_snapshot: DatasetSnapshot

Obligatorisk

Ögonblicksbilden av datamängden som ska jämföras med.

include_columns: list[str]

standardvärde: None

En lista med kolumnnamn som ska ingå i jämförelsen.

exclude_columns: list[str]

standardvärde: None

En lista med kolumnnamn som ska undantas i jämförelsen.

histogram_compare_method: HistogramCompareMethod

standardvärde: HistogramCompareMethod.WASSERSTEIN

En uppräkning som beskriver jämförelsemetoden, till exempel WASSERSTEIN eller ENERGY.

Returer

Skillnaden mellan profilerna.

Returtyp

<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>

get

Hämta ögonblicksbilden av datauppsättningen efter namnet på ögonblicksbilden.

static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)

Parametrar

workspace: Workspace

Obligatorisk

Arbetsytan som datauppsättningen är registrerad i.

snapshot_name: str

Obligatorisk

Namnet på ögonblicksbilden av datauppsättningen.

dataset_name

Obligatorisk

Namnet på datauppsättningen.

dataset_id: uuid

Obligatorisk

Identifieraren för datauppsättningen.

Returer

Ett DatasetSnapshot-objekt.

Returtyp

DatasetSnapshot

get_all

Hämta alla ögonblicksbilder av den angivna datauppsättningen.

static get_all(workspace, dataset_name)

Parametrar

workspace: Workspace

Obligatorisk

Arbetsytan som datauppsättningen är registrerad i.

dataset_name

Pandas DataFrame är helt materialiserad i minnet. Om ögonblicksbilden skapades med create_data_snapshot=Falsegenereras ett undantag. Om du vill kontrollera om ögonblicksbilden innehåller data använder du funktionen is_data_snapshot_available.

to_spark_dataframe

Skapa en Spark DataFrame genom att läsa in data som sparats med ögonblicksbilden.

to_spark_dataframe()

Returer

En Spark-dataram.

Returtyp

DataFrame

Kommentarer

Spark-dataramen som returneras är bara en körningsplan och innehåller faktiskt inga data, eftersom Spark-dataramar utvärderas lazily. Om ögonblicksbilden skapades med create_data_snapshot=Falsegenereras ett undantagsfel när du försöker komma åt data. Om du vill kontrollera om ögonblicksbilden innehåller data använder du is_data_snapshot_available.

wait_for_completion

Vänta tills DatasetSnapshot generaton har slutförts.

wait_for_completion(show_output=True, status_update_frequency=10)

Parametrar

show_output: bool

standardvärde: True

Anger om metoden ska skriva utdata.

status_update_frequency: int

standardvärde: 10

Statusuppdateringsfrekvensen för åtgärdskörningen i sekunder.

Workspace

Dela via

DatasetSnapshot Klass

Konstruktor

Parametrar

Metoder

compare_profiles

Parametrar

Returer

Returtyp

get

Parametrar

Returer

Returtyp

get_all

Parametrar

Returer

Returtyp

get_profile

Returer

Returtyp

get_status

Returer

Returtyp

is_data_snapshot_available

Returer

Returtyp

to_pandas_dataframe

Returer

Returtyp

Kommentarer

to_spark_dataframe

Returer

Returtyp

Kommentarer

wait_for_completion

Parametrar

Attribut

dataset_id

Returer

Returtyp

name

Returer

Returtyp

workspace

Returer

Returtyp

Feedback

Feedback

Ytterligare resurser