Delen via


DatasetSnapshot Klas

Beheert momentopnamen van gegevenssets met bewerkingen om een snapsot op te halen, de status ervan te retourneren en deze te converteren naar een gegevensframe.

Notitie

Deze klasse is afgeschaft. Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.

Een DataSnapshot-object wordt geretourneerd vanuit de create_snapshot methode van de Dataset klasse.

Momentopname van gegevensset is een combinatie van Profiel en een optionele gerealiseerde kopie van de gegevens.

Ga voor meer informatie over momentopnamen van gegevenssets naar https://aka.ms/azureml/howto/createsnapshots

Overname
builtins.object
DatasetSnapshot

Constructor

DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)

Parameters

Name Description
workspace
Vereist
<xref:azureml.core.Workspace.>

De werkruimte waarin de gegevensset is geregistreerd.

snapshot_name
Vereist
str

De naam van de momentopname van de gegevensset.

dataset_id
Vereist
str

De id van de gegevensset.

definition_version
Vereist
str

De definitieversie van de gegevensset.

time_stamp
Vereist

De aanmaaktijd van de momentopname.

profile_action_id
Vereist
str

De actie-id van het momentopnameprofiel.

datastore_name
Vereist
str

De naam van het gegevensarchief van de momentopname.

relative_path
Vereist
str

Het relatieve pad naar de momentopnamegegevens.

dataset_name
Vereist
str

De naam van de gegevensset.

Methoden

compare_profiles

Vergelijk het huidige gegevenssetprofiel met rhs_dataset profiel.

Als er geen profielen bestaan, genereert deze methode een uitzondering.

get

Haal de momentopname van de gegevensset op op basis van de naam van de momentopname.

get_all

Haal alle momentopnamen van de opgegeven gegevensset op.

get_profile

Haal het profiel van de momentopname van de gegevensset op.

get_status

Haal de status van het maken van de momentopname van de gegevensset op.

is_data_snapshot_available

Controleer of de gerealiseerde kopie van de momentopname beschikbaar is.

to_pandas_dataframe

Maak een Pandas DataFrame door de gegevens te laden die zijn opgeslagen met de momentopname.

to_spark_dataframe

Maak een Spark DataFrame door de gegevens te laden die zijn opgeslagen met de momentopname.

wait_for_completion

Wacht totdat DatasetSnapshot generaton is voltooid.

compare_profiles

Vergelijk het huidige gegevenssetprofiel met rhs_dataset profiel.

Als er geen profielen bestaan, genereert deze methode een uitzondering.

compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)

Parameters

Name Description
rhs_dataset_snapshot
Vereist

De momentopname van de gegevensset waarmee u wilt vergelijken.

include_columns

Een lijst met kolomnamen die moeten worden opgenomen in de vergelijking.

Default value: None
exclude_columns

Een lijst met kolomnamen die moeten worden uitgesloten in de vergelijking.

Default value: None
histogram_compare_method

Een opsomming waarin de vergelijkingsmethode wordt beschreven, bijvoorbeeld: WASSERSTEIN of ENERGY.

Default value: HistogramCompareMethod.WASSERSTEIN

Retouren

Type Description
<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>

Het verschil tussen de profielen.

get

Haal de momentopname van de gegevensset op op basis van de naam van de momentopname.

static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)

Parameters

Name Description
workspace
Vereist

De werkruimte waarin de gegevensset is geregistreerd.

snapshot_name
Vereist
str

De naam van de momentopname van de gegevensset.

dataset_name
Vereist

De naam van de gegevensset.

dataset_id
Vereist

De id van de gegevensset.

Retouren

Type Description

Een DatasetSnapshot-object.

get_all

Haal alle momentopnamen van de opgegeven gegevensset op.

static get_all(workspace, dataset_name)

Parameters

Name Description
workspace
Vereist

De werkruimte waarin de gegevensset is geregistreerd.

dataset_name
Vereist

De naam van de gegevensset.

Retouren

Type Description

Een lijst met momentopnamen van gegevenssets

get_profile

Haal het profiel van de momentopname van de gegevensset op.

get_profile()

Retouren

Type Description
<xref:azureml.dataprep.DataProfile>

Het DataProfile van de momentopname van de gegevensset

get_status

Haal de status van het maken van de momentopname van de gegevensset op.

get_status()

Retouren

Type Description
str

De status van momentopname van gegevensset.

is_data_snapshot_available

Controleer of de gerealiseerde kopie van de momentopname beschikbaar is.

is_data_snapshot_available()

Retouren

Type Description

True als de momentopname van de gegevens beschikbaar is.

to_pandas_dataframe

Maak een Pandas DataFrame door de gegevens te laden die zijn opgeslagen met de momentopname.

to_pandas_dataframe()

Retouren

Type Description

Een Pandas DataFrame.

Opmerkingen

Het Pandas DataFrame is volledig gematerialiseerd in het geheugen. Als de momentopname is gemaakt met create_data_snapshot=False, wordt er een uitzondering gegenereerd. Als u wilt controleren of de momentopname gegevens bevat, gebruikt u de functie is_data_snapshot_available.

to_spark_dataframe

Maak een Spark DataFrame door de gegevens te laden die zijn opgeslagen met de momentopname.

to_spark_dataframe()

Retouren

Type Description

Een Spark DataFrame.

Opmerkingen

Het geretourneerde Spark-dataframe is slechts een uitvoeringsplan en bevat geen gegevens, omdat Spark-dataframes lazily worden geƫvalueerd. Als de momentopname is gemaakt met create_data_snapshot=False, wordt er een uitzondering gegenereerd wanneer u toegang probeert te krijgen tot de gegevens. Als u wilt controleren of de momentopname gegevens bevat, gebruikt u is_data_snapshot_available.

wait_for_completion

Wacht totdat DatasetSnapshot generaton is voltooid.

wait_for_completion(show_output=True, status_update_frequency=10)

Parameters

Name Description
show_output

Geeft aan of de methode de uitvoer afdrukt.

Default value: True
status_update_frequency
int

De updatefrequentie van de uitvoeringsstatus van de actie in seconden.

Default value: 10

Kenmerken

dataset_id

Haal de gegevensset-id op.

Retouren

Type Description
str

De gegevensset-id.

name

Haal de naam van de momentopname van de gegevensset op.

Retouren

Type Description
str

De naam van de momentopname van de gegevensset.

workspace

Haal de Azure Machine Learning-werkruimte op waar de gegevensset is geregistreerd.

Retouren

Type Description

De werkruimte waarin de gegevensset is geregistreerd.