DatasetDefinition Classe
Définit une série d’étapes qui spécifient la façon de lire et de transformer les données dans un jeu de données.
Notes
Cette classe est déconseillée. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.
Un jeu de données inscrit dans un espace de travail Azure Machine Learning peut avoir plusieurs définitions, chacune créée par l’appel de update_definition. Chaque définition a un identificateur unique. La définition actuelle est la dernière créée.
Pour les jeux de données non inscrits, il n’existe qu’une seule définition.
Les définitions de jeux de données prennent en charge toutes les transformations listées pour la classe <xref:azureml.dataprep.Dataflow>. Consultez http://aka.ms/azureml/howto/transformdata. Pour en savoir plus sur les définitions de jeux de données, consultez https://aka.ms/azureml/howto/versiondata.
Initialisez l’objet de définition du jeu de données.
- Héritage
-
azureml.dataprep.api.engineless_dataflow.EnginelessDataflowDatasetDefinition
Constructeur
DatasetDefinition(workspace=None, dataset_id=None, version_id=None, dataflow=None, dataflow_json=None, notes=None, etag=None, created_time=None, modified_time=None, state=None, deprecated_by_dataset_id=None, deprecated_by_definition_version=None, data_path=None, dataset=None, file_type='Unknown')
Paramètres
- dataflow_json
Json de flux de données.
- deprecated_by_definition_version
- str
Version de la définition qui déprécie cette définition.
Méthodes
archive |
Archive la définition du jeu de données. |
create_snapshot |
Crée un instantané du jeu de données inscrit. |
deprecate |
Déprécie le jeu de données, avec un pointeur vers le nouveau jeu de données. |
reactivate |
Réactive la définition du jeu de données. Fonctionne sur les définitions de jeux de données dépréciées ou archivées. |
to_pandas_dataframe |
Crée un dataframe Pandas en exécutant le pipeline de transformation défini par cette définition de jeu de données. |
to_spark_dataframe |
Crée un dataframe Spark qui peut exécuter le pipeline de transformation défini par ce flux de données. |
archive
Archive la définition du jeu de données.
archive()
Retours
Aucun.
Type de retour
Remarques
Après l’archivage, toute tentative de récupération du jeu de données entraîne une erreur. En cas d’archivage accidentel, utilisez reactivate pour l’activer.
create_snapshot
Crée un instantané du jeu de données inscrit.
create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)
Paramètres
- snapshot_name
- str
Nom de l’instantané. Les noms des instantanés doivent être uniques au sein d’un jeu de données.
- compute_target
- ComputeTarget ou str
Cible de calcul pour créer le profil d’instantané. En cas d’omission, le calcul local est utilisé.
- create_data_snapshot
- bool
Si la valeur est True, une copie matérialisée des données est créée.
- target_datastore
- Union[AbstractAzureStorageDatastore, str]
Magasin de données cible où enregistrer l’instantané. En cas d’omission, l’instantané est créé dans le stockage par défaut de l’espace de travail.
Retours
Objet DatasetSnapshot.
Type de retour
Remarques
Les instantanés capturent des statistiques récapitulatives des données sous-jacentes à un moment précis ainsi qu’une copie facultative des données elles-mêmes. Pour en savoir plus sur la création d’instantanés, accédez à https://aka.ms/azureml/howto/createsnapshots.
deprecate
Déprécie le jeu de données, avec un pointeur vers le nouveau jeu de données.
deprecate(deprecate_by_dataset_id, deprecated_by_definition_version=None)
Paramètres
- deprecate_by_dataset_id
- uuid
ID de jeu de données responsable de la dépréciation du jeu de données actuel.
- deprecated_by_definition_version
- str
Version de la définition de jeu de données responsable de la dépréciation de la définition de jeu de données actuelle.
Retours
Aucun.
Type de retour
Remarques
Les définitions de jeux de données dépréciées journalisent les avertissements quand elles sont consommées. Pour empêcher complètement la consommation d’une définition de jeu de données, archivez-la.
Si une définition de jeu de données est dépréciée accidentellement, utilisez reactivate pour l’activer.
reactivate
Réactive la définition du jeu de données.
Fonctionne sur les définitions de jeux de données dépréciées ou archivées.
reactivate()
Retours
Aucun.
Type de retour
to_pandas_dataframe
Crée un dataframe Pandas en exécutant le pipeline de transformation défini par cette définition de jeu de données.
to_pandas_dataframe()
Retours
DataFrame Pandas.
Type de retour
Remarques
Retourne un DataFrame Pandas complètement matérialisé en mémoire.
to_spark_dataframe
Crée un dataframe Spark qui peut exécuter le pipeline de transformation défini par ce flux de données.
to_spark_dataframe()
Retours
DataFrame Spark.
Type de retour
Remarques
Le dataframe Spark retourné est uniquement un plan d’exécution. Il ne contient en réalité aucune donnée, car les dataframes Spark sont évalués en différé.
Commentaires
https://aka.ms/ContentUserFeedback.
Bientôt disponible : Tout au long de 2024, nous allons supprimer progressivement GitHub Issues comme mécanisme de commentaires pour le contenu et le remplacer par un nouveau système de commentaires. Pour plus d’informations, consultezEnvoyer et afficher des commentaires pour