DatasetSnapshot Classe
Gère les instantanés du jeu de données avec des opérations pour obtenir un instantané, retourner son état et le convertir en dataframe.
Notes
Cette classe est déconseillée. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.
Un objet DataSnapshot est retourné à partir de la méthode create_snapshot de la classe Dataset.
Le jeu de données instantané est une combinaison de Profil et d’une copie matérialisée facultative des données.
Pour en savoir plus sur les instantanés de jeux de données, accédez à https://aka.ms/azureml/howto/createsnapshots
- Héritage
-
builtins.objectDatasetSnapshot
Constructeur
DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)
Paramètres
- workspace
- <xref:azureml.core.Workspace.>
Espace de travail dans lequel le jeu de données est inscrit.
Méthodes
compare_profiles |
Compare le profil du jeu de données actuel au profil rhs_dataset. Si les profils n’existent pas, cette méthode lève une exception. |
get |
Obtient l’instantané du jeu de données à partir de son nom. |
get_all |
Obtient tous les instantanés du jeu de données en question. |
get_profile |
Obtient le profil de l’instantané du jeu de données. |
get_status |
Obtient l’état de création de l’instantané du jeu de données. |
is_data_snapshot_available |
Vérifie si la copie matérialisée de l’instantané est disponible. |
to_pandas_dataframe |
Crée un DataFrame Pandas en chargeant les données enregistrées avec l’instantané. |
to_spark_dataframe |
Crée un DataFrame Spark en chargeant les données enregistrées avec l’instantané. |
wait_for_completion |
Attend la fin de la génération de DatasetSnapshot. |
compare_profiles
Compare le profil du jeu de données actuel au profil rhs_dataset.
Si les profils n’existent pas, cette méthode lève une exception.
compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)
Paramètres
- rhs_dataset_snapshot
- DatasetSnapshot
Instantané de jeu de données avec lequel effectuer la comparaison.
Liste des noms de colonnes à inclure dans la comparaison.
Liste des noms de colonnes à exclure de la comparaison.
- histogram_compare_method
- HistogramCompareMethod
Enum décrivant la méthode de comparaison, par exemple : WASSERSTEIN ou ENERGY.
Retours
Différence entre les profils.
Type de retour
get
Obtient l’instantané du jeu de données à partir de son nom.
static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)
Paramètres
- dataset_name
Nom du jeu de données.
Retours
Objet DatasetSnapshot.
Type de retour
get_all
Obtient tous les instantanés du jeu de données en question.
static get_all(workspace, dataset_name)
Paramètres
- dataset_name
Nom du jeu de données.
Retours
Liste des instantanés du jeu de données
Type de retour
get_profile
Obtient le profil de l’instantané du jeu de données.
get_profile()
Retours
DataProfile de l’instantané du jeu de données
Type de retour
get_status
Obtient l’état de création de l’instantané du jeu de données.
get_status()
Retours
État de l’instantané du jeu de données.
Type de retour
is_data_snapshot_available
Vérifie si la copie matérialisée de l’instantané est disponible.
is_data_snapshot_available()
Retours
Valeur true si l’instantané des données est disponible.
Type de retour
to_pandas_dataframe
Crée un DataFrame Pandas en chargeant les données enregistrées avec l’instantané.
to_pandas_dataframe()
Retours
DataFrame Pandas.
Type de retour
Remarques
Le DataFrame Pandas est entièrement matérialisé en mémoire. Si l’instantané a été créé avec create_data_snapshot=False
, une exception est levée. Pour vérifier si l’instantané contient des données, utilisez la fonction is_data_snapshot_available.
to_spark_dataframe
Crée un DataFrame Spark en chargeant les données enregistrées avec l’instantané.
to_spark_dataframe()
Retours
DataFrame Spark.
Type de retour
Remarques
Le DataFrame Spark retourné n’est qu’un plan d’exécution et ne contient en fait aucune donnée, car Dataframes Spark sont évalués en différé. Si l’instantané a été créé avec create_data_snapshot=False
, une exception est levée lorsque vous essayez d’accéder aux données. Pour vérifier si l’instantané contient des données, utilisez is_data_snapshot_available.
wait_for_completion
Attend la fin de la génération de DatasetSnapshot.
wait_for_completion(show_output=True, status_update_frequency=10)
Paramètres
- status_update_frequency
- int
Fréquence de mise à jour de l’état d’exécution de l’action en secondes.
Attributs
dataset_id
name
Obtient le nom de l’instantané du jeu de données.
Retours
Nom de l’instantané du jeu de données.
Type de retour
workspace
Obtient l’espace de travail Azure Machine Learning où le jeu de données est inscrit.
Retours
Espace de travail où le jeu de données est inscrit.
Type de retour
Commentaires
https://aka.ms/ContentUserFeedback.
Bientôt disponible : Tout au long de 2024, nous allons supprimer progressivement GitHub Issues comme mécanisme de commentaires pour le contenu et le remplacer par un nouveau système de commentaires. Pour plus d’informations, consultezEnvoyer et afficher des commentaires pour