DatasetSnapshot Klas

Beheert momentopnamen van gegevenssets met bewerkingen om een snapsot op te halen, de status ervan te retourneren en deze te converteren naar een gegevensframe.

Notitie

Deze klasse is afgeschaft. Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.

Een DataSnapshot-object wordt geretourneerd vanuit de create_snapshot methode van de Dataset klasse.

Momentopname van gegevensset is een combinatie van Profiel en een optionele gerealiseerde kopie van de gegevens.

Ga voor meer informatie over momentopnamen van gegevenssets naar https://aka.ms/azureml/howto/createsnapshots

Overname
builtins.object
DatasetSnapshot

Constructor

DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)

Parameters

workspace
<xref:azureml.core.Workspace.>
Vereist

De werkruimte waarin de gegevensset is geregistreerd.

snapshot_name
str
Vereist

De naam van de momentopname van de gegevensset.

dataset_id
str
Vereist

De id van de gegevensset.

definition_version
str
Vereist

De definitieversie van de gegevensset.

time_stamp
datetime
Vereist

De aanmaaktijd van de momentopname.

profile_action_id
str
Vereist

De actie-id van het momentopnameprofiel.

datastore_name
str
Vereist

De naam van het gegevensarchief van de momentopname.

relative_path
str
Vereist

Het relatieve pad naar de momentopnamegegevens.

dataset_name
str
Vereist

De naam van de gegevensset.

Methoden

compare_profiles

Vergelijk het huidige gegevenssetprofiel met rhs_dataset profiel.

Als er geen profielen bestaan, genereert deze methode een uitzondering.

get

Haal de momentopname van de gegevensset op op basis van de naam van de momentopname.

get_all

Haal alle momentopnamen van de opgegeven gegevensset op.

get_profile

Haal het profiel van de momentopname van de gegevensset op.

get_status

Haal de status van het maken van de momentopname van de gegevensset op.

is_data_snapshot_available

Controleer of de gerealiseerde kopie van de momentopname beschikbaar is.

to_pandas_dataframe

Maak een Pandas DataFrame door de gegevens te laden die zijn opgeslagen met de momentopname.

to_spark_dataframe

Maak een Spark DataFrame door de gegevens te laden die zijn opgeslagen met de momentopname.

wait_for_completion

Wacht totdat DatasetSnapshot generaton is voltooid.

compare_profiles

Vergelijk het huidige gegevenssetprofiel met rhs_dataset profiel.

Als er geen profielen bestaan, genereert deze methode een uitzondering.

compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)

Parameters

rhs_dataset_snapshot
DatasetSnapshot
Vereist

De momentopname van de gegevensset waarmee u wilt vergelijken.

include_columns
list[str]
standaardwaarde: None

Een lijst met kolomnamen die moeten worden opgenomen in de vergelijking.

exclude_columns
list[str]
standaardwaarde: None

Een lijst met kolomnamen die moeten worden uitgesloten in de vergelijking.

histogram_compare_method
HistogramCompareMethod
standaardwaarde: HistogramCompareMethod.WASSERSTEIN

Een opsomming waarin de vergelijkingsmethode wordt beschreven, bijvoorbeeld: WASSERSTEIN of ENERGY.

Retouren

Het verschil tussen de profielen.

Retourtype

<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>

get

Haal de momentopname van de gegevensset op op basis van de naam van de momentopname.

static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)

Parameters

workspace
Workspace
Vereist

De werkruimte waarin de gegevensset is geregistreerd.

snapshot_name
str
Vereist

De naam van de momentopname van de gegevensset.

dataset_name
Vereist

De naam van de gegevensset.

dataset_id
uuid
Vereist

De id van de gegevensset.

Retouren

Een DatasetSnapshot-object.

Retourtype

get_all

Haal alle momentopnamen van de opgegeven gegevensset op.

static get_all(workspace, dataset_name)

Parameters

workspace
Workspace
Vereist

De werkruimte waarin de gegevensset is geregistreerd.

dataset_name
Vereist

De naam van de gegevensset.

Retouren

Een lijst met momentopnamen van gegevenssets

Retourtype

get_profile

Haal het profiel van de momentopname van de gegevensset op.

get_profile()

Retouren

Het DataProfile van de momentopname van de gegevensset

Retourtype

<xref:azureml.dataprep.DataProfile>

get_status

Haal de status van het maken van de momentopname van de gegevensset op.

get_status()

Retouren

De status van momentopname van gegevensset.

Retourtype

str

is_data_snapshot_available

Controleer of de gerealiseerde kopie van de momentopname beschikbaar is.

is_data_snapshot_available()

Retouren

True als de momentopname van de gegevens beschikbaar is.

Retourtype

to_pandas_dataframe

Maak een Pandas DataFrame door de gegevens te laden die zijn opgeslagen met de momentopname.

to_pandas_dataframe()

Retouren

Een Pandas DataFrame.

Retourtype

Opmerkingen

Het Pandas DataFrame is volledig gematerialiseerd in het geheugen. Als de momentopname is gemaakt met create_data_snapshot=False, wordt er een uitzondering gegenereerd. Als u wilt controleren of de momentopname gegevens bevat, gebruikt u de functie is_data_snapshot_available.

to_spark_dataframe

Maak een Spark DataFrame door de gegevens te laden die zijn opgeslagen met de momentopname.

to_spark_dataframe()

Retouren

Een Spark DataFrame.

Retourtype

Opmerkingen

Het geretourneerde Spark-dataframe is slechts een uitvoeringsplan en bevat geen gegevens, omdat Spark-dataframes lazily worden geƫvalueerd. Als de momentopname is gemaakt met create_data_snapshot=False, wordt er een uitzondering gegenereerd wanneer u toegang probeert te krijgen tot de gegevens. Als u wilt controleren of de momentopname gegevens bevat, gebruikt u is_data_snapshot_available.

wait_for_completion

Wacht totdat DatasetSnapshot generaton is voltooid.

wait_for_completion(show_output=True, status_update_frequency=10)

Parameters

show_output
bool
standaardwaarde: True

Geeft aan of de methode de uitvoer afdrukt.

status_update_frequency
int
standaardwaarde: 10

De updatefrequentie van de uitvoeringsstatus van de actie in seconden.

Kenmerken

dataset_id

Haal de gegevensset-id op.

Retouren

De gegevensset-id.

Retourtype

str

name

Haal de naam van de momentopname van de gegevensset op.

Retouren

De naam van de momentopname van de gegevensset.

Retourtype

str

workspace

Haal de Azure Machine Learning-werkruimte op waar de gegevensset is geregistreerd.

Retouren

De werkruimte waarin de gegevensset is geregistreerd.

Retourtype