DatasetDefinition Classe
Définit une série d’étapes qui spécifient la façon de lire et de transformer les données dans un jeu de données.
Notes
Cette classe est déconseillée. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.
Un jeu de données inscrit dans un espace de travail Azure Machine Learning peut avoir plusieurs définitions, chacune créée par l’appel de update_definition. Chaque définition a un identificateur unique. La définition actuelle est la dernière créée.
Pour les jeux de données non inscrits, il n’existe qu’une seule définition.
Les définitions de jeux de données prennent en charge toutes les transformations listées pour la classe <xref:azureml.dataprep.Dataflow>. Consultez http://aka.ms/azureml/howto/transformdata. Pour en savoir plus sur les définitions de jeux de données, consultez https://aka.ms/azureml/howto/versiondata.
Initialisez l’objet de définition du jeu de données.
- Héritage
-
azureml.dataprep.api.engineless_dataflow.EnginelessDataflowDatasetDefinition
Constructeur
DatasetDefinition(workspace=None, dataset_id=None, version_id=None, dataflow=None, dataflow_json=None, notes=None, etag=None, created_time=None, modified_time=None, state=None, deprecated_by_dataset_id=None, deprecated_by_definition_version=None, data_path=None, dataset=None, file_type='Unknown')
Paramètres
Nom | Description |
---|---|
workspace
Obligatoire
|
Espace de travail dans lequel le jeu de données est inscrit. |
dataset_id
Obligatoire
|
Identificateur du jeu de données. |
version_id
Obligatoire
|
Version de définition. |
dataflow
Obligatoire
|
Objet Dataflow. |
dataflow_json
Obligatoire
|
Json de flux de données. |
notes
Obligatoire
|
Informations facultatives sur la définition. |
etag
Obligatoire
|
Etag. |
created_time
Obligatoire
|
Heure de création de la définition. |
modified_time
Obligatoire
|
Heure de la dernière modification de la définition. |
deprecated_by_dataset_id
Obligatoire
|
ID du jeu de données qui déprécie cette définition. |
deprecated_by_definition_version
Obligatoire
|
Version de la définition qui déprécie cette définition. |
data_path
Obligatoire
|
Chemin d’accès aux données. |
dataset
Obligatoire
|
Objet Dataset parent. |
Méthodes
archive |
Archive la définition du jeu de données. |
create_snapshot |
Crée un instantané du jeu de données inscrit. |
deprecate |
Déprécie le jeu de données, avec un pointeur vers le nouveau jeu de données. |
reactivate |
Réactive la définition du jeu de données. Fonctionne sur les définitions de jeux de données dépréciées ou archivées. |
to_pandas_dataframe |
Crée un dataframe Pandas en exécutant le pipeline de transformation défini par cette définition de jeu de données. |
to_spark_dataframe |
Crée un dataframe Spark qui peut exécuter le pipeline de transformation défini par ce flux de données. |
archive
Archive la définition du jeu de données.
archive()
Retours
Type | Description |
---|---|
Aucun. |
Remarques
Après l’archivage, toute tentative de récupération du jeu de données entraîne une erreur. En cas d’archivage accidentel, utilisez reactivate pour l’activer.
create_snapshot
Crée un instantané du jeu de données inscrit.
create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)
Paramètres
Nom | Description |
---|---|
snapshot_name
Obligatoire
|
Nom de l’instantané. Les noms des instantanés doivent être uniques au sein d’un jeu de données. |
compute_target
|
ComputeTarget ou
str
Cible de calcul pour créer le profil d’instantané. En cas d’omission, le calcul local est utilisé. Valeur par défaut: None
|
create_data_snapshot
|
Si la valeur est True, une copie matérialisée des données est créée. Valeur par défaut: False
|
target_datastore
|
Magasin de données cible où enregistrer l’instantané. En cas d’omission, l’instantané est créé dans le stockage par défaut de l’espace de travail. Valeur par défaut: None
|
Retours
Type | Description |
---|---|
Objet DatasetSnapshot. |
Remarques
Les instantanés capturent des statistiques récapitulatives des données sous-jacentes à un moment précis ainsi qu’une copie facultative des données elles-mêmes. Pour en savoir plus sur la création d’instantanés, accédez à https://aka.ms/azureml/howto/createsnapshots.
deprecate
Déprécie le jeu de données, avec un pointeur vers le nouveau jeu de données.
deprecate(deprecate_by_dataset_id, deprecated_by_definition_version=None)
Paramètres
Nom | Description |
---|---|
deprecate_by_dataset_id
Obligatoire
|
ID de jeu de données responsable de la dépréciation du jeu de données actuel. |
deprecated_by_definition_version
|
Version de la définition de jeu de données responsable de la dépréciation de la définition de jeu de données actuelle. Valeur par défaut: None
|
Retours
Type | Description |
---|---|
Aucun. |
Remarques
Les définitions de jeux de données dépréciées journalisent les avertissements quand elles sont consommées. Pour empêcher complètement la consommation d’une définition de jeu de données, archivez-la.
Si une définition de jeu de données est dépréciée accidentellement, utilisez reactivate pour l’activer.
reactivate
Réactive la définition du jeu de données.
Fonctionne sur les définitions de jeux de données dépréciées ou archivées.
reactivate()
Retours
Type | Description |
---|---|
Aucun. |
to_pandas_dataframe
Crée un dataframe Pandas en exécutant le pipeline de transformation défini par cette définition de jeu de données.
to_pandas_dataframe()
Retours
Type | Description |
---|---|
DataFrame Pandas. |
Remarques
Retourne un DataFrame Pandas complètement matérialisé en mémoire.
to_spark_dataframe
Crée un dataframe Spark qui peut exécuter le pipeline de transformation défini par ce flux de données.
to_spark_dataframe()
Retours
Type | Description |
---|---|
DataFrame Spark. |
Remarques
Le dataframe Spark retourné est uniquement un plan d’exécution. Il ne contient en réalité aucune donnée, car les dataframes Spark sont évalués en différé.