DatasetSnapshot Klass
Hanterar ögonblicksbilder av datauppsättningar med åtgärder för att få en snapsot, returnera dess status och konvertera den till en dataram.
Anteckning
Den här klassen är inaktuell. Mer information finns i https://aka.ms/dataset-deprecation.
Ett DataSnapshot-objekt returneras från create_snapshot -metoden i Dataset klassen .
Ögonblicksbild av datauppsättningen är en kombination av Profil och en valfri materialiserad kopia av data.
Mer information om ögonblicksbilder av datauppsättningar finns i https://aka.ms/azureml/howto/createsnapshots
- Arv
-
builtins.objectDatasetSnapshot
Konstruktor
DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)
Parametrar
- workspace
- <xref:azureml.core.Workspace.>
Arbetsytan som datauppsättningen är registrerad i.
Metoder
compare_profiles |
Jämför den aktuella datauppsättningsprofilen med rhs_dataset profil. Om profilerna inte finns utlöser den här metoden ett undantag. |
get |
Hämta ögonblicksbilden av datauppsättningen efter namnet på ögonblicksbilden. |
get_all |
Hämta alla ögonblicksbilder av den angivna datauppsättningen. |
get_profile |
Hämta profilen för ögonblicksbilden av datauppsättningen. |
get_status |
Hämta status för att skapa en ögonblicksbild av datauppsättningen. |
is_data_snapshot_available |
Kontrollera om den materialiserade kopian av ögonblicksbilden är tillgänglig. |
to_pandas_dataframe |
Skapa en Pandas DataFrame genom att läsa in data som sparats med ögonblicksbilden. |
to_spark_dataframe |
Skapa en Spark DataFrame genom att läsa in data som sparats med ögonblicksbilden. |
wait_for_completion |
Vänta tills DatasetSnapshot generaton har slutförts. |
compare_profiles
Jämför den aktuella datauppsättningsprofilen med rhs_dataset profil.
Om profilerna inte finns utlöser den här metoden ett undantag.
compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)
Parametrar
- rhs_dataset_snapshot
- DatasetSnapshot
Ögonblicksbilden av datamängden som ska jämföras med.
En lista med kolumnnamn som ska undantas i jämförelsen.
- histogram_compare_method
- HistogramCompareMethod
En uppräkning som beskriver jämförelsemetoden, till exempel WASSERSTEIN eller ENERGY.
Returer
Skillnaden mellan profilerna.
Returtyp
get
Hämta ögonblicksbilden av datauppsättningen efter namnet på ögonblicksbilden.
static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)
Parametrar
- dataset_name
Namnet på datauppsättningen.
Returer
Ett DatasetSnapshot-objekt.
Returtyp
get_all
Hämta alla ögonblicksbilder av den angivna datauppsättningen.
static get_all(workspace, dataset_name)
Parametrar
- dataset_name
Namnet på datauppsättningen.
Returer
En lista över ögonblicksbilder av datauppsättningar
Returtyp
get_profile
Hämta profilen för ögonblicksbilden av datauppsättningen.
get_profile()
Returer
DataProfile för ögonblicksbilden av datauppsättningen
Returtyp
get_status
Hämta status för att skapa en ögonblicksbild av datauppsättningen.
get_status()
Returer
Status för ögonblicksbild av datauppsättning.
Returtyp
is_data_snapshot_available
Kontrollera om den materialiserade kopian av ögonblicksbilden är tillgänglig.
is_data_snapshot_available()
Returer
Sant om ögonblicksbilden av data är tillgänglig.
Returtyp
to_pandas_dataframe
Skapa en Pandas DataFrame genom att läsa in data som sparats med ögonblicksbilden.
to_pandas_dataframe()
Returer
En Pandas DataFrame.
Returtyp
Kommentarer
Pandas DataFrame är helt materialiserad i minnet. Om ögonblicksbilden skapades med create_data_snapshot=False
genereras ett undantag. Om du vill kontrollera om ögonblicksbilden innehåller data använder du funktionen is_data_snapshot_available.
to_spark_dataframe
Skapa en Spark DataFrame genom att läsa in data som sparats med ögonblicksbilden.
to_spark_dataframe()
Returer
En Spark-dataram.
Returtyp
Kommentarer
Spark-dataramen som returneras är bara en körningsplan och innehåller faktiskt inga data, eftersom Spark-dataramar utvärderas lazily. Om ögonblicksbilden skapades med create_data_snapshot=False
genereras ett undantagsfel när du försöker komma åt data. Om du vill kontrollera om ögonblicksbilden innehåller data använder du is_data_snapshot_available.
wait_for_completion
Vänta tills DatasetSnapshot generaton har slutförts.
wait_for_completion(show_output=True, status_update_frequency=10)
Parametrar
- status_update_frequency
- int
Statusuppdateringsfrekvensen för åtgärdskörningen i sekunder.
Attribut
dataset_id
name
Hämta namnet på datauppsättningens ögonblicksbild.
Returer
Namnet på ögonblicksbilden av datamängden.
Returtyp
workspace
Hämta den Azure Machine Learning-arbetsyta där datauppsättningen är registrerad.
Returer
Arbetsytan där datauppsättningen är registrerad.
Returtyp
Feedback
https://aka.ms/ContentUserFeedback.
Kommer snart: Under hela 2024 kommer vi att fasa ut GitHub-problem som feedbackmekanism för innehåll och ersätta det med ett nytt feedbacksystem. Mer information finns i:Skicka och visa feedback för