DatasetSnapshot Klas
Beheert momentopnamen van gegevenssets met bewerkingen om een snapsot op te halen, de status ervan te retourneren en deze te converteren naar een gegevensframe.
Notitie
Deze klasse is afgeschaft. Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.
Een DataSnapshot-object wordt geretourneerd vanuit de create_snapshot methode van de Dataset klasse.
Momentopname van gegevensset is een combinatie van Profiel en een optionele gerealiseerde kopie van de gegevens.
Ga voor meer informatie over momentopnamen van gegevenssets naar https://aka.ms/azureml/howto/createsnapshots
- Overname
-
builtins.objectDatasetSnapshot
Constructor
DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)
Parameters
Name | Description |
---|---|
workspace
Vereist
|
<xref:azureml.core.Workspace.>
De werkruimte waarin de gegevensset is geregistreerd. |
snapshot_name
Vereist
|
De naam van de momentopname van de gegevensset. |
dataset_id
Vereist
|
De id van de gegevensset. |
definition_version
Vereist
|
De definitieversie van de gegevensset. |
time_stamp
Vereist
|
De aanmaaktijd van de momentopname. |
profile_action_id
Vereist
|
De actie-id van het momentopnameprofiel. |
datastore_name
Vereist
|
De naam van het gegevensarchief van de momentopname. |
relative_path
Vereist
|
Het relatieve pad naar de momentopnamegegevens. |
dataset_name
Vereist
|
De naam van de gegevensset. |
Methoden
compare_profiles |
Vergelijk het huidige gegevenssetprofiel met rhs_dataset profiel. Als er geen profielen bestaan, genereert deze methode een uitzondering. |
get |
Haal de momentopname van de gegevensset op op basis van de naam van de momentopname. |
get_all |
Haal alle momentopnamen van de opgegeven gegevensset op. |
get_profile |
Haal het profiel van de momentopname van de gegevensset op. |
get_status |
Haal de status van het maken van de momentopname van de gegevensset op. |
is_data_snapshot_available |
Controleer of de gerealiseerde kopie van de momentopname beschikbaar is. |
to_pandas_dataframe |
Maak een Pandas DataFrame door de gegevens te laden die zijn opgeslagen met de momentopname. |
to_spark_dataframe |
Maak een Spark DataFrame door de gegevens te laden die zijn opgeslagen met de momentopname. |
wait_for_completion |
Wacht totdat DatasetSnapshot generaton is voltooid. |
compare_profiles
Vergelijk het huidige gegevenssetprofiel met rhs_dataset profiel.
Als er geen profielen bestaan, genereert deze methode een uitzondering.
compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)
Parameters
Name | Description |
---|---|
rhs_dataset_snapshot
Vereist
|
De momentopname van de gegevensset waarmee u wilt vergelijken. |
include_columns
|
Een lijst met kolomnamen die moeten worden opgenomen in de vergelijking. Default value: None
|
exclude_columns
|
Een lijst met kolomnamen die moeten worden uitgesloten in de vergelijking. Default value: None
|
histogram_compare_method
|
Een opsomming waarin de vergelijkingsmethode wordt beschreven, bijvoorbeeld: WASSERSTEIN of ENERGY. Default value: HistogramCompareMethod.WASSERSTEIN
|
Retouren
Type | Description |
---|---|
<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>
|
Het verschil tussen de profielen. |
get
Haal de momentopname van de gegevensset op op basis van de naam van de momentopname.
static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)
Parameters
Name | Description |
---|---|
workspace
Vereist
|
De werkruimte waarin de gegevensset is geregistreerd. |
snapshot_name
Vereist
|
De naam van de momentopname van de gegevensset. |
dataset_name
Vereist
|
De naam van de gegevensset. |
dataset_id
Vereist
|
De id van de gegevensset. |
Retouren
Type | Description |
---|---|
Een DatasetSnapshot-object. |
get_all
Haal alle momentopnamen van de opgegeven gegevensset op.
static get_all(workspace, dataset_name)
Parameters
Name | Description |
---|---|
workspace
Vereist
|
De werkruimte waarin de gegevensset is geregistreerd. |
dataset_name
Vereist
|
De naam van de gegevensset. |
Retouren
Type | Description |
---|---|
Een lijst met momentopnamen van gegevenssets |
get_profile
Haal het profiel van de momentopname van de gegevensset op.
get_profile()
Retouren
Type | Description |
---|---|
<xref:azureml.dataprep.DataProfile>
|
Het DataProfile van de momentopname van de gegevensset |
get_status
Haal de status van het maken van de momentopname van de gegevensset op.
get_status()
Retouren
Type | Description |
---|---|
De status van momentopname van gegevensset. |
is_data_snapshot_available
Controleer of de gerealiseerde kopie van de momentopname beschikbaar is.
is_data_snapshot_available()
Retouren
Type | Description |
---|---|
True als de momentopname van de gegevens beschikbaar is. |
to_pandas_dataframe
Maak een Pandas DataFrame door de gegevens te laden die zijn opgeslagen met de momentopname.
to_pandas_dataframe()
Retouren
Type | Description |
---|---|
Een Pandas DataFrame. |
Opmerkingen
Het Pandas DataFrame is volledig gematerialiseerd in het geheugen. Als de momentopname is gemaakt met create_data_snapshot=False
, wordt er een uitzondering gegenereerd. Als u wilt controleren of de momentopname gegevens bevat, gebruikt u de functie is_data_snapshot_available.
to_spark_dataframe
Maak een Spark DataFrame door de gegevens te laden die zijn opgeslagen met de momentopname.
to_spark_dataframe()
Retouren
Type | Description |
---|---|
Een Spark DataFrame. |
Opmerkingen
Het geretourneerde Spark-dataframe is slechts een uitvoeringsplan en bevat geen gegevens, omdat Spark-dataframes lazily worden geƫvalueerd. Als de momentopname is gemaakt met create_data_snapshot=False
, wordt er een uitzondering gegenereerd wanneer u toegang probeert te krijgen tot de gegevens. Als u wilt controleren of de momentopname gegevens bevat, gebruikt u is_data_snapshot_available.
wait_for_completion
Wacht totdat DatasetSnapshot generaton is voltooid.
wait_for_completion(show_output=True, status_update_frequency=10)
Parameters
Name | Description |
---|---|
show_output
|
Geeft aan of de methode de uitvoer afdrukt. Default value: True
|
status_update_frequency
|
De updatefrequentie van de uitvoeringsstatus van de actie in seconden. Default value: 10
|
Kenmerken
dataset_id
name
Haal de naam van de momentopname van de gegevensset op.
Retouren
Type | Description |
---|---|
De naam van de momentopname van de gegevensset. |
workspace
Haal de Azure Machine Learning-werkruimte op waar de gegevensset is geregistreerd.
Retouren
Type | Description |
---|---|
De werkruimte waarin de gegevensset is geregistreerd. |