DatasetSnapshot Klass
Hanterar ögonblicksbilder av datauppsättningar med åtgärder för att få en snapsot, returnera dess status och konvertera den till en dataram.
Anteckning
Den här klassen är inaktuell. Mer information finns i https://aka.ms/dataset-deprecation.
Ett DataSnapshot-objekt returneras från create_snapshot -metoden i Dataset klassen .
Ögonblicksbild av datauppsättningen är en kombination av Profil och en valfri materialiserad kopia av data.
Mer information om ögonblicksbilder av datauppsättningar finns i https://aka.ms/azureml/howto/createsnapshots
- Arv
-
builtins.objectDatasetSnapshot
Konstruktor
DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)
Parametrar
Name | Description |
---|---|
workspace
Obligatorisk
|
<xref:azureml.core.Workspace.>
Arbetsytan som datauppsättningen är registrerad i. |
snapshot_name
Obligatorisk
|
Namnet på ögonblicksbilden av datauppsättningen. |
dataset_id
Obligatorisk
|
Identifieraren för datauppsättningen. |
definition_version
Obligatorisk
|
Definitionsversionen av datauppsättningen. |
time_stamp
Obligatorisk
|
Tiden då ögonblicksbilden skapades. |
profile_action_id
Obligatorisk
|
Åtgärds-ID för ögonblicksbildsprofilen. |
datastore_name
Obligatorisk
|
Namnet på datalagret för ögonblicksbilder. |
relative_path
Obligatorisk
|
Den relativa sökvägen till ögonblicksbilddata. |
dataset_name
Obligatorisk
|
Namnet på datauppsättningen. |
Metoder
compare_profiles |
Jämför den aktuella datauppsättningsprofilen med rhs_dataset profil. Om profilerna inte finns utlöser den här metoden ett undantag. |
get |
Hämta ögonblicksbilden av datauppsättningen efter namnet på ögonblicksbilden. |
get_all |
Hämta alla ögonblicksbilder av den angivna datauppsättningen. |
get_profile |
Hämta profilen för ögonblicksbilden av datauppsättningen. |
get_status |
Hämta status för att skapa en ögonblicksbild av datauppsättningen. |
is_data_snapshot_available |
Kontrollera om den materialiserade kopian av ögonblicksbilden är tillgänglig. |
to_pandas_dataframe |
Skapa en Pandas DataFrame genom att läsa in data som sparats med ögonblicksbilden. |
to_spark_dataframe |
Skapa en Spark DataFrame genom att läsa in data som sparats med ögonblicksbilden. |
wait_for_completion |
Vänta tills DatasetSnapshot generaton har slutförts. |
compare_profiles
Jämför den aktuella datauppsättningsprofilen med rhs_dataset profil.
Om profilerna inte finns utlöser den här metoden ett undantag.
compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)
Parametrar
Name | Description |
---|---|
rhs_dataset_snapshot
Obligatorisk
|
Ögonblicksbilden av datamängden som ska jämföras med. |
include_columns
|
En lista med kolumnnamn som ska ingå i jämförelsen. Standardvärde: None
|
exclude_columns
|
En lista med kolumnnamn som ska undantas i jämförelsen. Standardvärde: None
|
histogram_compare_method
|
En uppräkning som beskriver jämförelsemetoden, till exempel WASSERSTEIN eller ENERGY. Standardvärde: HistogramCompareMethod.WASSERSTEIN
|
Returer
Typ | Description |
---|---|
<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>
|
Skillnaden mellan profilerna. |
get
Hämta ögonblicksbilden av datauppsättningen efter namnet på ögonblicksbilden.
static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)
Parametrar
Name | Description |
---|---|
workspace
Obligatorisk
|
Arbetsytan som datauppsättningen är registrerad i. |
snapshot_name
Obligatorisk
|
Namnet på ögonblicksbilden av datauppsättningen. |
dataset_name
Obligatorisk
|
Namnet på datauppsättningen. |
dataset_id
Obligatorisk
|
Identifieraren för datauppsättningen. |
Returer
Typ | Description |
---|---|
Ett DatasetSnapshot-objekt. |
get_all
Hämta alla ögonblicksbilder av den angivna datauppsättningen.
static get_all(workspace, dataset_name)
Parametrar
Name | Description |
---|---|
workspace
Obligatorisk
|
Arbetsytan som datauppsättningen är registrerad i. |
dataset_name
Obligatorisk
|
Namnet på datauppsättningen. |
Returer
Typ | Description |
---|---|
En lista över ögonblicksbilder av datauppsättningar |
get_profile
Hämta profilen för ögonblicksbilden av datauppsättningen.
get_profile()
Returer
Typ | Description |
---|---|
<xref:azureml.dataprep.DataProfile>
|
DataProfile för ögonblicksbilden av datauppsättningen |
get_status
Hämta status för att skapa en ögonblicksbild av datauppsättningen.
get_status()
Returer
Typ | Description |
---|---|
Status för ögonblicksbild av datauppsättning. |
is_data_snapshot_available
Kontrollera om den materialiserade kopian av ögonblicksbilden är tillgänglig.
is_data_snapshot_available()
Returer
Typ | Description |
---|---|
Sant om ögonblicksbilden av data är tillgänglig. |
to_pandas_dataframe
Skapa en Pandas DataFrame genom att läsa in data som sparats med ögonblicksbilden.
to_pandas_dataframe()
Returer
Typ | Description |
---|---|
En Pandas DataFrame. |
Kommentarer
Pandas DataFrame är helt materialiserad i minnet. Om ögonblicksbilden skapades med create_data_snapshot=False
genereras ett undantag. Om du vill kontrollera om ögonblicksbilden innehåller data använder du funktionen is_data_snapshot_available.
to_spark_dataframe
Skapa en Spark DataFrame genom att läsa in data som sparats med ögonblicksbilden.
to_spark_dataframe()
Returer
Typ | Description |
---|---|
En Spark-dataram. |
Kommentarer
Spark-dataramen som returneras är bara en körningsplan och innehåller faktiskt inga data, eftersom Spark-dataramar utvärderas lazily. Om ögonblicksbilden skapades med create_data_snapshot=False
genereras ett undantagsfel när du försöker komma åt data. Om du vill kontrollera om ögonblicksbilden innehåller data använder du is_data_snapshot_available.
wait_for_completion
Vänta tills DatasetSnapshot generaton har slutförts.
wait_for_completion(show_output=True, status_update_frequency=10)
Parametrar
Name | Description |
---|---|
show_output
|
Anger om metoden ska skriva utdata. Standardvärde: True
|
status_update_frequency
|
Statusuppdateringsfrekvensen för åtgärdskörningen i sekunder. Standardvärde: 10
|
Attribut
dataset_id
name
Hämta namnet på datauppsättningens ögonblicksbild.
Returer
Typ | Description |
---|---|
Namnet på ögonblicksbilden av datamängden. |
workspace
Hämta den Azure Machine Learning-arbetsyta där datauppsättningen är registrerad.
Returer
Typ | Description |
---|---|
Arbetsytan där datauppsättningen är registrerad. |