DatasetSnapshot Classe

Référence

Gère les instantanés du jeu de données avec des opérations pour obtenir un instantané, retourner son état et le convertir en dataframe.

Notes

Cette classe est déconseillée. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.

Un objet DataSnapshot est retourné à partir de la méthode create_snapshot de la classe Dataset.

Le jeu de données instantané est une combinaison de Profil et d’une copie matérialisée facultative des données.

Pour en savoir plus sur les instantanés de jeux de données, accédez à https://aka.ms/azureml/howto/createsnapshots

Héritage: builtins.object

DatasetSnapshot

Constructeur

DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)

Paramètres

workspace: <xref:azureml.core.Workspace.>

Obligatoire

Espace de travail dans lequel le jeu de données est inscrit.

snapshot_name: str

Obligatoire

Nom de l’instantané du jeu de données.

dataset_id: str

Obligatoire

Identificateur du jeu de données.

definition_version: str

Obligatoire

Version de définition du jeu de données.

time_stamp: datetime

Obligatoire

Heure de création instantané.

profile_action_id: str

Obligatoire

ID d’action de profil instantané.

datastore_name: str

Obligatoire

Nom du magasin de données instantané.

relative_path: str

Obligatoire

Chemin d’accès relatif aux données instantané.

dataset_name: str

Obligatoire

Nom du jeu de données.

Méthodes

compare_profiles	Compare le profil du jeu de données actuel au profil rhs_dataset. Si les profils n’existent pas, cette méthode lève une exception.
get	Obtient l’instantané du jeu de données à partir de son nom.
get_all	Obtient tous les instantanés du jeu de données en question.
get_profile	Obtient le profil de l’instantané du jeu de données.
get_status	Obtient l’état de création de l’instantané du jeu de données.
is_data_snapshot_available	Vérifie si la copie matérialisée de l’instantané est disponible.
to_pandas_dataframe	Crée un DataFrame Pandas en chargeant les données enregistrées avec l’instantané.
to_spark_dataframe	Crée un DataFrame Spark en chargeant les données enregistrées avec l’instantané.
wait_for_completion	Attend la fin de la génération de DatasetSnapshot.

compare_profiles

Compare le profil du jeu de données actuel au profil rhs_dataset.

Si les profils n’existent pas, cette méthode lève une exception.

compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)

Paramètres

rhs_dataset_snapshot: DatasetSnapshot

Obligatoire

Instantané de jeu de données avec lequel effectuer la comparaison.

include_columns: list[str]

valeur par défaut: None

Liste des noms de colonnes à inclure dans la comparaison.

exclude_columns: list[str]

valeur par défaut: None

Liste des noms de colonnes à exclure de la comparaison.

histogram_compare_method: HistogramCompareMethod

valeur par défaut: HistogramCompareMethod.WASSERSTEIN

Enum décrivant la méthode de comparaison, par exemple : WASSERSTEIN ou ENERGY.

Retours

Différence entre les profils.

Type de retour

<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>

get

Obtient l’instantané du jeu de données à partir de son nom.

static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)

Paramètres

workspace: Workspace

Obligatoire

Espace de travail dans lequel le jeu de données est inscrit.

snapshot_name: str

Obligatoire

Nom de l’instantané du jeu de données.

dataset_name

Obligatoire

Nom du jeu de données.

dataset_id: uuid

Obligatoire

Identificateur du jeu de données.

Retours

Objet DatasetSnapshot.

Type de retour

DatasetSnapshot

get_all

Obtient tous les instantanés du jeu de données en question.

static get_all(workspace, dataset_name)

Paramètres

workspace: Workspace

Obligatoire

Espace de travail dans lequel le jeu de données est inscrit.

dataset_name

Le DataFrame Pandas est entièrement matérialisé en mémoire. Si l’instantané a été créé avec create_data_snapshot=False, une exception est levée. Pour vérifier si l’instantané contient des données, utilisez la fonction is_data_snapshot_available.

to_spark_dataframe

Crée un DataFrame Spark en chargeant les données enregistrées avec l’instantané.

to_spark_dataframe()

Retours

DataFrame Spark.

Type de retour

DataFrame

Remarques

Le DataFrame Spark retourné n’est qu’un plan d’exécution et ne contient en fait aucune donnée, car Dataframes Spark sont évalués en différé. Si l’instantané a été créé avec create_data_snapshot=False, une exception est levée lorsque vous essayez d’accéder aux données. Pour vérifier si l’instantané contient des données, utilisez is_data_snapshot_available.

wait_for_completion

Attend la fin de la génération de DatasetSnapshot.

wait_for_completion(show_output=True, status_update_frequency=10)

Paramètres

show_output: bool

valeur par défaut: True

Indique si la méthode doit imprimer la sortie.

status_update_frequency: int

valeur par défaut: 10

Fréquence de mise à jour de l’état d’exécution de l’action en secondes.

Workspace

Partager via

DatasetSnapshot Classe

Constructeur

Paramètres

Méthodes

compare_profiles

Paramètres

Retours

Type de retour

get

Paramètres

Retours

Type de retour

get_all

Paramètres

Retours

Type de retour

get_profile

Retours

Type de retour

get_status

Retours

Type de retour

is_data_snapshot_available

Retours

Type de retour

to_pandas_dataframe

Retours

Type de retour

Remarques

to_spark_dataframe

Retours

Type de retour

Remarques

wait_for_completion

Paramètres

Attributs

dataset_id

Retours

Type de retour

name

Retours

Type de retour

workspace

Retours

Type de retour

Commentaires

Commentaires

Ressources supplémentaires