DatasetSnapshot Klas
Beheert momentopnamen van gegevenssets met bewerkingen om een snapsot op te halen, de status ervan te retourneren en deze te converteren naar een gegevensframe.
Notitie
Deze klasse is afgeschaft. Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.
Een DataSnapshot-object wordt geretourneerd vanuit de create_snapshot methode van de Dataset klasse.
Momentopname van gegevensset is een combinatie van Profiel en een optionele gerealiseerde kopie van de gegevens.
Ga voor meer informatie over momentopnamen van gegevenssets naar https://aka.ms/azureml/howto/createsnapshots
- Overname
-
builtins.objectDatasetSnapshot
Constructor
DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)
Parameters
- workspace
- <xref:azureml.core.Workspace.>
De werkruimte waarin de gegevensset is geregistreerd.
Methoden
compare_profiles |
Vergelijk het huidige gegevenssetprofiel met rhs_dataset profiel. Als er geen profielen bestaan, genereert deze methode een uitzondering. |
get |
Haal de momentopname van de gegevensset op op basis van de naam van de momentopname. |
get_all |
Haal alle momentopnamen van de opgegeven gegevensset op. |
get_profile |
Haal het profiel van de momentopname van de gegevensset op. |
get_status |
Haal de status van het maken van de momentopname van de gegevensset op. |
is_data_snapshot_available |
Controleer of de gerealiseerde kopie van de momentopname beschikbaar is. |
to_pandas_dataframe |
Maak een Pandas DataFrame door de gegevens te laden die zijn opgeslagen met de momentopname. |
to_spark_dataframe |
Maak een Spark DataFrame door de gegevens te laden die zijn opgeslagen met de momentopname. |
wait_for_completion |
Wacht totdat DatasetSnapshot generaton is voltooid. |
compare_profiles
Vergelijk het huidige gegevenssetprofiel met rhs_dataset profiel.
Als er geen profielen bestaan, genereert deze methode een uitzondering.
compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)
Parameters
- rhs_dataset_snapshot
- DatasetSnapshot
De momentopname van de gegevensset waarmee u wilt vergelijken.
Een lijst met kolomnamen die moeten worden opgenomen in de vergelijking.
Een lijst met kolomnamen die moeten worden uitgesloten in de vergelijking.
- histogram_compare_method
- HistogramCompareMethod
Een opsomming waarin de vergelijkingsmethode wordt beschreven, bijvoorbeeld: WASSERSTEIN of ENERGY.
Retouren
Het verschil tussen de profielen.
Retourtype
get
Haal de momentopname van de gegevensset op op basis van de naam van de momentopname.
static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)
Parameters
- dataset_name
De naam van de gegevensset.
Retouren
Een DatasetSnapshot-object.
Retourtype
get_all
Haal alle momentopnamen van de opgegeven gegevensset op.
static get_all(workspace, dataset_name)
Parameters
- dataset_name
De naam van de gegevensset.
Retouren
Een lijst met momentopnamen van gegevenssets
Retourtype
get_profile
Haal het profiel van de momentopname van de gegevensset op.
get_profile()
Retouren
Het DataProfile van de momentopname van de gegevensset
Retourtype
get_status
Haal de status van het maken van de momentopname van de gegevensset op.
get_status()
Retouren
De status van momentopname van gegevensset.
Retourtype
is_data_snapshot_available
Controleer of de gerealiseerde kopie van de momentopname beschikbaar is.
is_data_snapshot_available()
Retouren
True als de momentopname van de gegevens beschikbaar is.
Retourtype
to_pandas_dataframe
Maak een Pandas DataFrame door de gegevens te laden die zijn opgeslagen met de momentopname.
to_pandas_dataframe()
Retouren
Een Pandas DataFrame.
Retourtype
Opmerkingen
Het Pandas DataFrame is volledig gematerialiseerd in het geheugen. Als de momentopname is gemaakt met create_data_snapshot=False
, wordt er een uitzondering gegenereerd. Als u wilt controleren of de momentopname gegevens bevat, gebruikt u de functie is_data_snapshot_available.
to_spark_dataframe
Maak een Spark DataFrame door de gegevens te laden die zijn opgeslagen met de momentopname.
to_spark_dataframe()
Retouren
Een Spark DataFrame.
Retourtype
Opmerkingen
Het geretourneerde Spark-dataframe is slechts een uitvoeringsplan en bevat geen gegevens, omdat Spark-dataframes lazily worden geƫvalueerd. Als de momentopname is gemaakt met create_data_snapshot=False
, wordt er een uitzondering gegenereerd wanneer u toegang probeert te krijgen tot de gegevens. Als u wilt controleren of de momentopname gegevens bevat, gebruikt u is_data_snapshot_available.
wait_for_completion
Wacht totdat DatasetSnapshot generaton is voltooid.
wait_for_completion(show_output=True, status_update_frequency=10)
Parameters
- status_update_frequency
- int
De updatefrequentie van de uitvoeringsstatus van de actie in seconden.
Kenmerken
dataset_id
name
Haal de naam van de momentopname van de gegevensset op.
Retouren
De naam van de momentopname van de gegevensset.
Retourtype
workspace
Haal de Azure Machine Learning-werkruimte op waar de gegevensset is geregistreerd.
Retouren
De werkruimte waarin de gegevensset is geregistreerd.
Retourtype
Feedback
https://aka.ms/ContentUserFeedback.
Binnenkort beschikbaar: In de loop van 2024 zullen we GitHub-problemen geleidelijk uitfaseren als het feedbackmechanisme voor inhoud en deze vervangen door een nieuw feedbacksysteem. Zie voor meer informatie:Feedback verzenden en weergeven voor