Partager via


DatasetDefinition Classe

Définit une série d’étapes qui spécifient la façon de lire et de transformer les données dans un jeu de données.

Notes

Cette classe est déconseillée. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.

Un jeu de données inscrit dans un espace de travail Azure Machine Learning peut avoir plusieurs définitions, chacune créée par l’appel de update_definition. Chaque définition a un identificateur unique. La définition actuelle est la dernière créée.

Pour les jeux de données non inscrits, il n’existe qu’une seule définition.

Les définitions de jeux de données prennent en charge toutes les transformations listées pour la classe <xref:azureml.dataprep.Dataflow>. Consultez http://aka.ms/azureml/howto/transformdata. Pour en savoir plus sur les définitions de jeux de données, consultez https://aka.ms/azureml/howto/versiondata.

Initialisez l’objet de définition du jeu de données.

Héritage
azureml.dataprep.api.engineless_dataflow.EnginelessDataflow
DatasetDefinition

Constructeur

DatasetDefinition(workspace=None, dataset_id=None, version_id=None, dataflow=None, dataflow_json=None, notes=None, etag=None, created_time=None, modified_time=None, state=None, deprecated_by_dataset_id=None, deprecated_by_definition_version=None, data_path=None, dataset=None, file_type='Unknown')

Paramètres

workspace
str
Obligatoire

Espace de travail dans lequel le jeu de données est inscrit.

dataset_id
str
Obligatoire

Identificateur du jeu de données.

version_id
str
Obligatoire

Version de définition.

dataflow
str
Obligatoire

Objet Dataflow.

dataflow_json
Obligatoire

Json de flux de données.

notes
str
Obligatoire

Informations facultatives sur la définition.

etag
str
Obligatoire

Etag.

created_time
datetime
Obligatoire

Heure de création de la définition.

modified_time
datetime
Obligatoire

Heure de la dernière modification de la définition.

deprecated_by_dataset_id
str
Obligatoire

ID du jeu de données qui déprécie cette définition.

deprecated_by_definition_version
str
Obligatoire

Version de la définition qui déprécie cette définition.

data_path
DataPath
Obligatoire

Chemin d’accès aux données.

dataset
Dataset
Obligatoire

Objet Dataset parent.

Méthodes

archive

Archive la définition du jeu de données.

create_snapshot

Crée un instantané du jeu de données inscrit.

deprecate

Déprécie le jeu de données, avec un pointeur vers le nouveau jeu de données.

reactivate

Réactive la définition du jeu de données.

Fonctionne sur les définitions de jeux de données dépréciées ou archivées.

to_pandas_dataframe

Crée un dataframe Pandas en exécutant le pipeline de transformation défini par cette définition de jeu de données.

to_spark_dataframe

Crée un dataframe Spark qui peut exécuter le pipeline de transformation défini par ce flux de données.

archive

Archive la définition du jeu de données.

archive()

Retours

Aucun.

Type de retour

Remarques

Après l’archivage, toute tentative de récupération du jeu de données entraîne une erreur. En cas d’archivage accidentel, utilisez reactivate pour l’activer.

create_snapshot

Crée un instantané du jeu de données inscrit.

create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)

Paramètres

snapshot_name
str
Obligatoire

Nom de l’instantané. Les noms des instantanés doivent être uniques au sein d’un jeu de données.

compute_target
ComputeTarget ou str
valeur par défaut: None

Cible de calcul pour créer le profil d’instantané. En cas d’omission, le calcul local est utilisé.

create_data_snapshot
bool
valeur par défaut: False

Si la valeur est True, une copie matérialisée des données est créée.

target_datastore
Union[AbstractAzureStorageDatastore, str]
valeur par défaut: None

Magasin de données cible où enregistrer l’instantané. En cas d’omission, l’instantané est créé dans le stockage par défaut de l’espace de travail.

Retours

Objet DatasetSnapshot.

Type de retour

Remarques

Les instantanés capturent des statistiques récapitulatives des données sous-jacentes à un moment précis ainsi qu’une copie facultative des données elles-mêmes. Pour en savoir plus sur la création d’instantanés, accédez à https://aka.ms/azureml/howto/createsnapshots.

deprecate

Déprécie le jeu de données, avec un pointeur vers le nouveau jeu de données.

deprecate(deprecate_by_dataset_id, deprecated_by_definition_version=None)

Paramètres

deprecate_by_dataset_id
uuid
Obligatoire

ID de jeu de données responsable de la dépréciation du jeu de données actuel.

deprecated_by_definition_version
str
valeur par défaut: None

Version de la définition de jeu de données responsable de la dépréciation de la définition de jeu de données actuelle.

Retours

Aucun.

Type de retour

Remarques

Les définitions de jeux de données dépréciées journalisent les avertissements quand elles sont consommées. Pour empêcher complètement la consommation d’une définition de jeu de données, archivez-la.

Si une définition de jeu de données est dépréciée accidentellement, utilisez reactivate pour l’activer.

reactivate

Réactive la définition du jeu de données.

Fonctionne sur les définitions de jeux de données dépréciées ou archivées.

reactivate()

Retours

Aucun.

Type de retour

to_pandas_dataframe

Crée un dataframe Pandas en exécutant le pipeline de transformation défini par cette définition de jeu de données.

to_pandas_dataframe()

Retours

DataFrame Pandas.

Type de retour

Remarques

Retourne un DataFrame Pandas complètement matérialisé en mémoire.

to_spark_dataframe

Crée un dataframe Spark qui peut exécuter le pipeline de transformation défini par ce flux de données.

to_spark_dataframe()

Retours

DataFrame Spark.

Type de retour

Remarques

Le dataframe Spark retourné est uniquement un plan d’exécution. Il ne contient en réalité aucune donnée, car les dataframes Spark sont évalués en différé.