Dataset Classe

Référence

Représente une ressource permettant d’explorer, de transformer et de gérer les données dans Azure Machine Learning.

Un jeu de données est une référence à des données dans un Datastore ou derrière des URL web publiques.

Pour les méthodes déconseillées dans cette classe, consultez la classe AbstractDataset afin d’obtenir les API améliorées.

Les types de jeux de données suivants sont pris en charge :

TabularDataset représente les données sous forme de tableau en analysant le fichier ou la liste de fichiers fournis.
FileDataset fait référence à des fichiers uniques ou multiples dans vos magasins de données ou vos URL publiques.

Pour commencer à utiliser des jeux de données, consultez l’article Ajouter & inscrire des jeux de données, ou consultez les notebooks https://aka.ms/tabulardataset-samplenotebook et https://aka.ms/filedataset-samplenotebook.

Initialisez l’objet Dataset.

Pour obtenir un jeu de données qui a déjà été inscrit auprès de l’espace de travail, utilisez la méthode get.

Héritage: builtins.object

Dataset

Constructeur

Dataset(definition, workspace=None, name=None, id=None)

Paramètres

Nom	Description
definition Obligatoire	<xref:azureml.data.DatasetDefinition> Définition du jeu de données.
workspace Obligatoire	Workspace Espace de travail dans lequel le jeu de données existe.
name Obligatoire	str Nom du jeu de données.
id Obligatoire	str Identificateur unique du jeu de données.

Remarques

La classe DataSet expose deux attributs de classe très pratiques (File et Tabular) que vous pouvez utiliser pour créer un jeu de données sans utiliser les méthodes de fabrique correspondantes. Par exemple, pour créer un jeu de données à l’aide des attributs suivants :

Dataset.Tabular.from_delimited_files()
Dataset.File.from_files()

Vous pouvez également créer un nouvel objet TabularDataset ou FileDataset en appelant directement les méthodes de fabrique correspondantes de la classe définie dans TabularDatasetFactory et FileDatasetFactory.

L’exemple suivant montre comment créer un TabularDataset pointant vers un chemin d’accès unique dans un magasin de données.


   from azureml.core import Dataset
   dataset = Dataset.Tabular.from_delimited_files(path = [(datastore, 'train-dataset/tabular/iris.csv')])

   # preview the first 3 rows of the dataset
   dataset.take(3).to_pandas_dataframe()

Un exemple complet est disponible sur https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/work-with-data/datasets-tutorial/train-with-datasets/train-with-datasets.ipynb

Variables

Nom	Description
azureml.core.Dataset.File	Attribut de classe qui donne accès aux méthodes FileDatasetFactory pour créer de nouveaux objets FileDataset. Utilisation : Dataset.File.from_files().
azureml.core.Dataset.Tabular	Attribut de classe qui donne accès aux méthodes TabularDatasetFactory pour créer de nouveaux objets TabularDataset. Utilisation : Dataset.Tabular.from_delimited_files().

Méthodes

archive	Archive un jeu de données actif ou déconseillé. Notes Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.
auto_read_files	Analyse le ou les fichiers dans le chemin d’accès spécifié et renvoie un nouveau jeu de données. Notes Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir. Il est recommandé d’utiliser les méthodes Dataset.Tabular.from_* pour lire les fichiers. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.
compare_profiles	Compare le profil du jeu de données actuel avec celui d’un autre jeu de données. Cela révèle les différences de statistiques récapitulatives entre deux jeux de données. Le paramètre « rhs_dataset » signifie « jeu de données de droite ». Il s’agit simplement du deuxième jeu de données. Le premier jeu de données (l’objet actuel) est considéré comme le jeu de données « de gauche ». Notes Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.
create_snapshot	Crée un instantané du jeu de données inscrit. Notes Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.
delete_snapshot	Supprime l’instantané du jeu de données par nom. Notes Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.
deprecate	Déconseille un jeu de données actif dans un espace de travail en le remplaçant par un autre jeu de données. Notes Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.
diff	Comparaison entre le jeu de données actuel et rhs_dataset. Notes Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.
from_binary_files	Crée un jeu de données en mémoire non-inscrit à partir de fichiers binaires. Notes Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir. Utilisez plutôt Dataset.File.from_files. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.
from_delimited_files	Crée un jeu de données en mémoire non-inscrit à partir de fichiers délimités. Notes Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir. Utilisez plutôt Dataset.Tabular.from_delimited_files. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation. `# Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'), header='ALL_FILES_HAVE_SAME_HEADERS') df = dataset.to_pandas_dataframe()`
from_excel_files	Crée un jeu de données en mémoire non-inscrit à partir de fichiers Excel. Notes Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.
from_json_files	Crée un jeu de données en mémoire non-inscrit à partir de fichiers JSON. Notes Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir. Utilisez plutôt Dataset.Tabular.from_json_lines_files pour lire un fichier de lignes JSON. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.
from_pandas_dataframe	Crée un jeu de données en mémoire non-inscrit à partir d’une trame de données Pandas. Notes Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir. Utilisez plutôt Dataset.Tabular.register_pandas_dataframe. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.
from_parquet_files	Crée un jeu de données en mémoire non-inscrit à partir de fichiers Parquet. Notes Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir. Utilisez plutôt Dataset.Tabular.from_parquet_files. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.
from_sql_query	Crée un jeu de données en mémoire non-inscrit à partir d’une requête SQL. Notes Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir. Utilisez plutôt Dataset.Tabular.from_sql_query. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.
generate_profile	Génère un nouveau profil pour le jeu de données. Notes Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.
get	Récupère un jeu de données qui existe déjà dans l’espace de travail en spécifiant son nom ou son ID. Notes Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir. Utilisez plutôt get_by_name et get_by_id. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.
get_all	Récupère tous les jeux de données inscrits de l’espace de travail.
get_all_snapshots	Récupère tous les instantanés du jeu de données. Notes Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.
get_by_id	Récupère un jeu de données qui est enregistré dans l’espace de travail.
get_by_name	Récupère un jeu de données inscrit dans l’espace de travail par son nom d’inscription.
get_definition	Récupère une définition spécifique du jeu de données. Notes Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.
get_definitions	Récupère toutes les définitions du jeu de données. Notes Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.
get_profile	Récupère des statistiques récapitulatives sur le jeu de données calculé précédemment. Notes Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.
get_snapshot	Récupère l’instantané du jeu de données par nom. Notes Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.
head	Extrait le nombre spécifié d’enregistrements à partir de ce jeu de données et les renvoie sous forme de trame de données. Notes Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.
list	Répertorie tous les jeux de données de l’espace de travail, y compris ceux dont la propriété `is_visible` est False. Notes Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir. Utilisez plutôt get_all. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.
reactivate	Réactive un jeu de données archivé ou déconseillé. Notes Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.
register	Inscrit le jeu de données dans l’espace de travail, ce qui le met à disposition des autres utilisateurs de l’espace de travail. Notes Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir. Utilisez plutôt register. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.
sample	Génère un nouvel échantillon à partir du jeu de données source, en utilisant la stratégie d’échantillonnage et les paramètres fournis. Notes Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir. Créez un jeu de données TabularDataset en appelant les méthodes statiques de Dataset.Tabular et utilisez la méthode take_sample. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.
to_pandas_dataframe	Crée une trame de données Pandas en exécutant le pipeline de transformation défini par cette définition de jeu de données. Notes Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir. Créez un jeu de données TabularDataset en appelant les méthodes statiques de Dataset.Tabular et utilisez la méthode to_pandas_dataframe. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.
to_spark_dataframe	Crée une trame de données Spark qui peut exécuter le pipeline de transformation défini par cette définition de jeu de données. Notes Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir. Créez un jeu de données TabularDataset en appelant les méthodes statiques de Dataset.Tabular et utilisez la méthode to_spark_dataframe. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.
update	Met à jour les attributs modifiables du jeu de données dans l’espace de travail, et renvoie le jeu de données mis à jour à partir de l’espace de travail. Notes Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.
update_definition	Met à jour la définition du jeu de données. Notes Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.

auto_read_files

Analyse le ou les fichiers dans le chemin d’accès spécifié et renvoie un nouveau jeu de données.

Notes

Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir.

Il est recommandé d’utiliser les méthodes Dataset.Tabular.from_* pour lire les fichiers. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.

static auto_read_files(path, include_path=False, partition_format=None)

Paramètres

Nom	Description
path Obligatoire	DataReference ou str Chemin de données d’un magasin de données inscrit, chemin d’accès local ou URL HTTP (CSV/TSV).
include_path Obligatoire	bool Indique s’il faut inclure une colonne contenant le chemin d’accès au fichier à partir duquel les données ont été lues. Utile lorsque vous lisez plusieurs fichiers et que vous souhaitez savoir de quel fichier provient un enregistrement particulier. Également utile si vous souhaitez que certaines informations figurant dans le chemin d’accès ou le nom du fichier apparaissent dans une colonne.
partition_format Obligatoire	str Spécifie le format de partition dans le chemin d’accès, et crée des colonnes de type chaîne au format « {x} » et une colonne DateHeure au format « {x:yyyy/MM/dd/HH/mm/ss} », où « yyyy », « MM », « dd », « HH », « mm » et « ss » sont utilisés pour extraire l’année, le mois, le jour, l’heure, la minute et la seconde pour le type DateHeure. Le format doit commencer à partir de la position de la première clé de partition et se poursuivre jusqu’à la fin du chemin d’accès au fichier. Par exemple, à partir d’un chemin d’accès de fichier « ../Accounts/2019/01/01/data.csv » où les données sont partitionnées par nom de service et par heure, nous pouvons définir « /{Department}/{PartitionDate:yyyy/MM/dd}/data.csv » pour créer des colonnes « Department » de type chaîne et « PartitionDate » de type DateHeure.

Retours

Type	Description
Dataset	Objet de jeu de données.

Remarques

Utilisez cette méthode lorsque vous souhaitez que les formats de fichiers et les délimiteurs soient détectés automatiquement.

Après avoir créé un jeu de données, vous devez utiliser get_profile pour répertorier les types de colonnes détectés et les statistiques récapitulatives de chaque colonne.

Le jeu de données retourné n’est pas inscrit auprès de l’espace de travail.

compare_profiles

Compare le profil du jeu de données actuel avec celui d’un autre jeu de données.

Cela révèle les différences de statistiques récapitulatives entre deux jeux de données. Le paramètre « rhs_dataset » signifie « jeu de données de droite ». Il s’agit simplement du deuxième jeu de données. Le premier jeu de données (l’objet actuel) est considéré comme le jeu de données « de gauche ».

Notes

Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir.

Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.

compare_profiles(rhs_dataset, profile_arguments={}, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)

Paramètres

Nom	Description
rhs_dataset Obligatoire	Dataset Deuxième jeu de données, également appelé jeu de données « de droite », pour comparaison.
profile_arguments Obligatoire	dict Arguments permettant de récupérer un profil spécifique.
include_columns Obligatoire	list[str] Liste des noms de colonnes à inclure dans la comparaison.
exclude_columns Obligatoire	list[str] Liste des noms de colonnes à exclure de la comparaison.
histogram_compare_method Obligatoire	HistogramCompareMethod Énumération décrivant la méthode de comparaison, par exemple : Wasserstein ou Energy

Retours

Type	Description
<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>	Différence entre les deux profils de jeux de données.

Remarques

Cela concerne uniquement les jeux de données inscrits. Génère une exception si le profil du jeu de données actuel n’existe pas. Pour les jeux de données non-inscrits, utilisez la méthode profile.compare.

create_snapshot

Crée un instantané du jeu de données inscrit.

Notes

Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir.

Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.

create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)

Paramètres

Nom	Description
snapshot_name Obligatoire	str Nom de l’instantané. Les noms des instantanés doivent être uniques au sein d’un jeu de données.
compute_target Obligatoire	Union[ComputeTarget, str] Cible de calcul facultative pour procéder à la création du profil d’instantané. En cas d’omission, le calcul local est utilisé.
create_data_snapshot Obligatoire	bool Si la valeur est True, une copie matérialisée des données est créée.
target_datastore Obligatoire	Union[AbstractAzureStorageDatastore, str] Magasin de données cible pour l’enregistrement de l’instantané. En cas d’omission, l’instantané est créé dans le stockage par défaut de l’espace de travail.

Retours

Type	Description
DatasetSnapshot	Objet d’instantané de jeu de données.

Remarques

Les instantanés capturent des statistiques récapitulatives des données sous-jacentes à un moment précis ainsi qu’une copie facultative des données elles-mêmes. Pour en savoir plus sur la création d’instantanés, consultez https://aka.ms/azureml/howto/createsnapshots.

delete_snapshot

Supprime l’instantané du jeu de données par nom.

Notes

Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir.

Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.

delete_snapshot(snapshot_name)

Paramètres

Nom	Description
snapshot_name Obligatoire	str Nom de l’instantané.

Retours

Type	Description
None	Aucun.

Remarques

À utiliser pour libérer l’espace de stockage consommé par les données enregistrées dans les instantanés dont vous n’avez plus besoin.

deprecate

Déconseille un jeu de données actif dans un espace de travail en le remplaçant par un autre jeu de données.

Notes

Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir.

Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.

deprecate(deprecate_by_dataset_id)

Paramètres

Nom	Description
deprecate_by_dataset_id Obligatoire	str ID du jeu de données destiné à remplacer ce jeu de données.

Retours

Type	Description
None	Aucun.

Remarques

Les jeux de données déconseillés consignent des avertissements lorsqu’ils sont consommés. Lorsqu’un jeu de données est déconseillé, toutes ses définitions le sont également.

Les jeux de données déconseillés peuvent toujours être consommés. Pour empêcher la consommation complète d’un jeu de données, archivez-le.

S’il est déconseillé par accident, la réactivation l’activera.

diff

Comparaison entre le jeu de données actuel et rhs_dataset.

Notes

Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir.

Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.

diff(rhs_dataset, compute_target=None, columns=None)

Paramètres

Nom	Description
rhs_dataset Obligatoire	Dataset Autre jeu de données, également appelé jeu de données « de droite », pour comparaison
compute_target Obligatoire	Union[ComputeTarget, str] Cible de calcul pour la comparaison. En cas d’omission, le calcul local est utilisé.
columns Obligatoire	list[str] Liste des noms de colonnes à inclure dans la comparaison.

Retours

Type	Description
DatasetActionRun	Objet d’exécution de l’action sur le jeu de données.

from_binary_files

Crée un jeu de données en mémoire non-inscrit à partir de fichiers binaires.

Notes

Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir.

Utilisez plutôt Dataset.File.from_files. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.

static from_binary_files(path)

Paramètres

Nom	Description
path Obligatoire	DataReference ou str Chemin de données d’un magasin de données inscrit ou chemin d’accès local.

Retours

Type	Description
Dataset	Objet de jeu de données.

Remarques

Utilisez cette méthode pour lire des fichiers sous forme de flux de données binaires. Renvoie un objet de flux de fichiers par fichier lu. Utilisez cette méthode lorsque vous lisez des images, des vidéos, des fichiers audio ou d’autres données binaires.

get_profile et create_snapshot ne fonctionneront pas comme prévu pour un jeu de données créé par cette méthode.

Le jeu de données retourné n’est pas inscrit auprès de l’espace de travail.

from_delimited_files

Crée un jeu de données en mémoire non-inscrit à partir de fichiers délimités.

Notes

Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir.

Utilisez plutôt Dataset.Tabular.from_delimited_files. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.


   # Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS
   dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'),
       header='ALL_FILES_HAVE_SAME_HEADERS')

   df = dataset.to_pandas_dataframe()

static from_delimited_files(path, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, encoding=FileEncoding.UTF8, quoting=False, infer_column_types=True, skip_rows=0, skip_mode=SkipLinesBehavior.NO_ROWS, comment=None, include_path=False, archive_options=None, partition_format=None)

Paramètres

Nom	Description
path Obligatoire	DataReference ou str Chemin de données d’un magasin de données inscrit, chemin d’accès local ou URL HTTP.
separator Obligatoire	str Séparateur utilisé pour fractionner les colonnes.
header Obligatoire	PromoteHeadersBehavior Détermine la façon dont les en-têtes de colonne sont promus lors de la lecture des fichiers.
encoding Obligatoire	FileEncoding Encodage des fichiers lus.
quoting Obligatoire	bool Indique comment traiter les caractères de nouvelle ligne qui sont entre guillemets. La valeur par défaut (False) consiste à interpréter les caractères de nouvelle ligne comme le début de nouvelles lignes, que ces caractères soient entre guillemets ou non. Si elle est définie sur True, les caractères de nouvelle ligne situés à l’intérieur des guillemets ne génèrent pas de nouvelles lignes, et la lecture du fichier est ralentie.
infer_column_types Obligatoire	bool Indique si les types de données des colonnes sont déduits.
skip_rows Obligatoire	int Nombre de lignes à ignorer dans le ou les fichiers en cours de lecture.
skip_mode Obligatoire	SkipLinesBehavior Détermine la façon dont les lignes sont ignorées lors de la lecture des fichiers.
comment Obligatoire	str Caractère utilisé pour indiquer les lignes de commentaires dans les fichiers en cours de lecture. Les lignes commençant par cette chaîne seront ignorées.
include_path Obligatoire	bool Indique s’il faut inclure une colonne contenant le chemin d’accès au fichier à partir duquel les données ont été lues. Utile lorsque vous lisez plusieurs fichiers et que vous souhaitez savoir de quel fichier provient un enregistrement particulier, ou pour conserver des informations utiles dans le chemin du fichier.
archive_options Obligatoire	<xref:azureml.dataprep.ArchiveOptions> Options liées au fichier d’archive, comme le type d’archive et le modèle Glob d’entrée. Pour le moment, seul le type d’archive ZIP est pris en charge. Par exemple, spécifier `archive_options = ArchiveOptions(archive_type = ArchiveType.ZIP, entry_glob = '*10-20.csv')` permet de lire tous les fichiers dont le nom se termine par « 10-20.csv » dans le ZIP.
partition_format Obligatoire	str Spécifie le format de partition dans le chemin d’accès, et crée des colonnes de type chaîne au format « {x} » et une colonne DateHeure au format « {x:yyyy/MM/dd/HH/mm/ss} », où « yyyy », « MM », « dd », « HH », « mm » et « ss » sont utilisés pour extraire l’année, le mois, le jour, l’heure, la minute et la seconde pour le type DateHeure. Le format doit commencer à partir de la position de la première clé de partition et se poursuivre jusqu’à la fin du chemin d’accès au fichier. Par exemple, à partir d’un chemin d’accès de fichier « ../Accounts/2019/01/01/data.csv » où les données sont partitionnées par nom de service et par heure, nous pouvons définir « /{Department}/{PartitionDate:yyyy/MM/dd}/data.csv » pour créer des colonnes « Department » de type chaîne et « PartitionDate » de type DateHeure.

Retours

Type	Description
Dataset	Objet de jeu de données.

Remarques

Utilisez cette méthode pour lire des fichiers texte délimités lorsque vous souhaitez contrôler les options utilisées.

Après avoir créé un jeu de données, vous devez utiliser get_profile pour répertorier les types de colonnes détectés et les statistiques récapitulatives de chaque colonne.

Le jeu de données retourné n’est pas inscrit auprès de l’espace de travail.

from_excel_files

Crée un jeu de données en mémoire non-inscrit à partir de fichiers Excel.

Notes

Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir.

Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.

static from_excel_files(path, sheet_name=None, use_column_headers=False, skip_rows=0, include_path=False, infer_column_types=True, partition_format=None)

Paramètres

Nom	Description
path Obligatoire	DataReference ou str Chemin de données d’un magasin de données inscrit ou chemin d’accès local.
sheet_name Obligatoire	str Nom de la feuille Excel à charger. Par défaut, nous lisons la première feuille de chaque fichier Excel.
use_column_headers Obligatoire	bool Détermine si la première ligne doit être utilisée comme en-têtes de colonnes.
skip_rows Obligatoire	int Nombre de lignes à ignorer dans le ou les fichiers en cours de lecture.
include_path Obligatoire	bool Indique s’il faut inclure une colonne contenant le chemin d’accès au fichier à partir duquel les données ont été lues. Utile lorsque vous lisez plusieurs fichiers et que vous souhaitez savoir de quel fichier provient un enregistrement particulier, ou pour conserver des informations utiles dans le chemin du fichier.
infer_column_types Obligatoire	bool Si la valeur est True, les types de données des colonnes sont déduits.
partition_format Obligatoire	str Spécifie le format de partition dans le chemin d’accès, et crée des colonnes de type chaîne au format « {x} » et une colonne DateHeure au format « {x:yyyy/MM/dd/HH/mm/ss} », où « yyyy », « MM », « dd », « HH », « mm » et « ss » sont utilisés pour extraire l’année, le mois, le jour, l’heure, la minute et la seconde pour le type DateHeure. Le format doit commencer à partir de la position de la première clé de partition et se poursuivre jusqu’à la fin du chemin d’accès au fichier. Par exemple, à partir d’un chemin d’accès de fichier « ../Accounts/2019/01/01/data.xls » où les données sont partitionnées par nom de service et par heure, nous pouvons définir « /{Department}/{PartitionDate:yyyy/MM/dd}/data.xls » pour créer des colonnes « Department » de type chaîne et « PartitionDate » de type DateHeure.

Retours

Type	Description
Dataset	Objet de jeu de données.

Remarques

Utilisez cette méthode pour lire les fichiers Excel au format .xlsx. Les données peuvent être lues à partir d’une seule feuille dans chaque fichier Excel. Après avoir créé un jeu de données, vous devez utiliser get_profile pour répertorier les types de colonnes détectés et les statistiques récapitulatives de chaque colonne. Le jeu de données retourné n’est pas inscrit auprès de l’espace de travail.

from_json_files

Crée un jeu de données en mémoire non-inscrit à partir de fichiers JSON.

Notes

Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir.

Utilisez plutôt Dataset.Tabular.from_json_lines_files pour lire un fichier de lignes JSON. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.

static from_json_files(path, encoding=FileEncoding.UTF8, flatten_nested_arrays=False, include_path=False, partition_format=None)

Paramètres

Nom	Description
path Obligatoire	DataReference ou str Chemin d’accès au(x) fichier(s) ou dossier(s) que vous souhaitez charger et analyser. Il peut s’agir d’un chemin d’accès local ou de l’URL d’un objet blob Azure. Les caractères génériques sont pris en charge. Par exemple, vous pouvez utiliser path = "./data*" pour lire tous les fichiers dont le nom commence par « Data ».
encoding Obligatoire	FileEncoding Encodage des fichiers lus.
flatten_nested_arrays Obligatoire	bool Propriété contrôlant la gestion par le programme des tableaux imbriqués. Si vous choisissez d’aplatir les tableaux JSON imbriqués, vous risquez d’obtenir un nombre de lignes beaucoup plus important.
include_path Obligatoire	bool Indique s’il faut inclure une colonne contenant le chemin d’accès à partir duquel les données ont été lues. Utile lorsque vous lisez plusieurs fichiers et que vous souhaitez savoir de quel fichier provient un enregistrement particulier, ou pour conserver des informations utiles dans le chemin du fichier.
partition_format Obligatoire	str Spécifie le format de partition dans le chemin d’accès, et crée des colonnes de type chaîne au format « {x} » et une colonne DateHeure au format « {x:yyyy/MM/dd/HH/mm/ss} », où « yyyy », « MM », « dd », « HH », « mm » et « ss » sont utilisés pour extraire l’année, le mois, le jour, l’heure, la minute et la seconde pour le type DateHeure. Le format doit commencer à partir de la position de la première clé de partition et se poursuivre jusqu’à la fin du chemin d’accès au fichier. Par exemple, à partir d’un chemin d’accès de fichier « ../Accounts/2019/01/01/data.json » où les données sont partitionnées par nom de service et par heure, nous pouvons définir « /{Department}/{PartitionDate:yyyy/MM/dd}/data.json » pour créer des colonnes « Department » de type chaîne et « PartitionDate » de type DateHeure.

Retours

Type	Description
Dataset	Objet de jeu de données local.

from_pandas_dataframe

Crée un jeu de données en mémoire non-inscrit à partir d’une trame de données Pandas.

Notes

Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir.

Utilisez plutôt Dataset.Tabular.register_pandas_dataframe. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.

static from_pandas_dataframe(dataframe, path=None, in_memory=False)

Paramètres

Nom	Description
dataframe Obligatoire	DataFrame Trame de données Pandas.
path Obligatoire	Union[DataReference, str] Chemin de données d’un magasin de données inscrit ou chemin d’accès local du dossier.
in_memory Obligatoire	bool Indique s’il faut lire la trame de données à partir de la mémoire au lieu d’en assurer la persistance sur le disque.

Retours

Type	Description
Dataset	Objet de jeu de données.

Remarques

Utilisez cette méthode pour convertir une trame de données Pandas en objet de jeu de données. Un jeu de données créé à l’aide de cette méthode ne peut pas être inscrit, car les données proviennent de la mémoire.

Si la valeur de in_memory est False, la trame de données Pandas est convertie en fichier CSV localement. Si le type de pat est DataReference, la trame de données Pandas est chargée dans le magasin de données et le jeu de données est basé sur l’élément DataReference. Si « path » est un dossier local, le jeu de données est créé à partir du fichier local qui ne peut pas être supprimé.

Génère une exception si l’élément DataReference actuel n’est pas un chemin de dossier.

from_parquet_files

Crée un jeu de données en mémoire non-inscrit à partir de fichiers Parquet.

Notes

Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir.

Utilisez plutôt Dataset.Tabular.from_parquet_files. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.

static from_parquet_files(path, include_path=False, partition_format=None)

Paramètres

Nom	Description
path Obligatoire	DataReference ou str Chemin de données d’un magasin de données inscrit ou chemin d’accès local.
include_path Obligatoire	bool Indique s’il faut inclure une colonne contenant le chemin d’accès au fichier à partir duquel les données ont été lues. Utile lorsque vous lisez plusieurs fichiers et que vous souhaitez savoir de quel fichier provient un enregistrement particulier, ou pour conserver des informations utiles dans le chemin du fichier.
partition_format Obligatoire	str Spécifie le format de partition dans le chemin d’accès, et crée des colonnes de type chaîne au format « {x} » et une colonne DateHeure au format « {x:yyyy/MM/dd/HH/mm/ss} », où « yyyy », « MM », « dd », « HH », « mm » et « ss » sont utilisés pour extraire l’année, le mois, le jour, l’heure, la minute et la seconde pour le type DateHeure. Le format doit commencer à partir de la position de la première clé de partition et se poursuivre jusqu’à la fin du chemin d’accès au fichier. Par exemple, à partir d’un chemin d’accès de fichier « ../Accounts/2019/01/01/data.parquet » où les données sont partitionnées par nom de service et par heure, nous pouvons définir « /{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet » pour créer des colonnes « Department » de type chaîne et « PartitionDate » de type DateHeure.

Retours

Type	Description
Dataset	Objet de jeu de données.

Remarques

Utilisez cette méthode pour lire les fichiers Parquet.

Après avoir créé un jeu de données, vous devez utiliser get_profile pour répertorier les types de colonnes détectés et les statistiques récapitulatives de chaque colonne.

Le jeu de données retourné n’est pas inscrit auprès de l’espace de travail.

from_sql_query

Crée un jeu de données en mémoire non-inscrit à partir d’une requête SQL.

Notes

Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir.

Utilisez plutôt Dataset.Tabular.from_sql_query. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.

static from_sql_query(data_source, query)

Paramètres

Nom	Description
data_source Obligatoire	AzureSqlDatabaseDatastore Détails du magasin de données Azure SQL.
query Obligatoire	str Requête à exécuter pour lire les données.

Retours

Type	Description
Dataset	Objet de jeu de données local.

generate_profile

Génère un nouveau profil pour le jeu de données.

Notes

Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir.

Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.

generate_profile(compute_target=None, workspace=None, arguments=None)

Paramètres

Nom	Description
compute_target Obligatoire	Union[ComputeTarget, str] Cible de calcul facultative pour procéder à la création du profil d’instantané. En cas d’omission, le calcul local est utilisé.
workspace Obligatoire	Workspace Espace de travail, requis pour les jeux de données temporaires (non-inscrits).
arguments Obligatoire	dict[str, object] Arguments associés au profil. Les arguments valides sont : « include_stype_counts » de type bool. Vérifiez si les valeurs sont semblables à certains types sémantiques bien connus, tels que l’adresse e-mail, l’adresse IP (V4/V6), le numéro de téléphone américain, le code postal américain, la latitude/longitude. L’activation de cet argument influe sur les performances. « number_of_histogram_bins » de type int. Représente le nombre de classes d’histogramme à utiliser pour les données numériques. La valeur par défaut est 10.

Retours

Type	Description
DatasetActionRun	Objet d’exécution de l’action sur le jeu de données.

Remarques

Appel synchrone. Engendre un blocage tant qu’il n’est pas terminé. Appelez get_result pour obtenir le résultat de l’action.

get

Récupère un jeu de données qui existe déjà dans l’espace de travail en spécifiant son nom ou son ID.

Notes

Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir.

Utilisez plutôt get_by_name et get_by_id. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.

static get(workspace, name=None, id=None)

Paramètres

Nom	Description
workspace Obligatoire	Workspace Espace de travail Azure Machine Learning existant dans lequel le jeu de données a été créé.
name Obligatoire	str Nom du jeu de données à récupérer.
id Obligatoire	str Identificateur unique du jeu de données dans l’espace de travail.

Retours

Type	Description
Dataset	Jeu de données correspondant au nom ou à l’ID spécifié.

Remarques

Vous pouvez fournir la propriété name ou id. Une exception est générée si :

les propriétés name et id sont toutes deux spécifiées mais ne correspondent pas.
le jeu de données correspondant à la propriété name ou id spécifiée est introuvable dans l’espace de travail.

get_all

Récupère tous les jeux de données inscrits de l’espace de travail.

get_all()

Paramètres

Nom	Description
workspace Obligatoire	Workspace Espace de travail Azure Machine Learning existant dans lequel les jeux de données ont été inscrits.

Retours

Type	Description
dict[str, Union[TabularDataset, FileDataset]]	Dictionnaire d’objets TabularDataset et FileDataset indexés par leur nom d’inscription.

get_all_snapshots

Récupère tous les instantanés du jeu de données.

Notes

Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir.

Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.

get_all_snapshots()

Retours

Type	Description
list[DatasetSnapshot]	Liste des instantanés du jeu de données.

get_by_id

Récupère un jeu de données qui est enregistré dans l’espace de travail.

get_by_id(id, **kwargs)

Paramètres

Nom	Description
workspace Obligatoire	Workspace Espace de travail Azure Machine Learning existant dans lequel le jeu de données est enregistré.
id Obligatoire	str ID du jeu de données.

Retours

Type	Description
Union[TabularDataset, FileDataset]	Objet de jeu de données. Si le jeu de données est inscrit, son nom et sa version d’inscription sont également renvoyés.

get_by_name

Récupère un jeu de données inscrit dans l’espace de travail par son nom d’inscription.

get_by_name(name, version='latest', **kwargs)

Paramètres

Nom	Description
workspace Obligatoire	Workspace Espace de travail AzureML existant dans lequel le jeu de données a été inscrit.
name Obligatoire	str Nom d’inscription.
version Obligatoire	int Version d’inscription. La valeur par défaut est « latest ».

Retours

Type	Description
Union[TabularDataset, FileDataset]	Objet de jeu de données inscrit.

get_definition

Récupère une définition spécifique du jeu de données.

Notes

Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir.

Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.

get_definition(version_id=None)

Paramètres

Nom	Description
version_id Obligatoire	str ID de version de la définition de jeu de données

Retours

Type	Description
DatasetDefinition	Définition du jeu de données.

Remarques

Si version_id est fourni, Azure Machine Learning essaie d’obtenir la définition correspondant à cette version. Si cette version n’existe pas, une exception est générée. Si version_id est omis, la version la plus récente est récupérée.

get_definitions

Récupère toutes les définitions du jeu de données.

Notes

Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir.

Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.

get_definitions()

Retours

Type	Description
dict[str, DatasetDefinition]	Dictionnaire des définitions du jeu de données.

Remarques

Pour les jeux de données non inscrits, il n’existe qu’une seule définition.

get_profile

Récupère des statistiques récapitulatives sur le jeu de données calculé précédemment.

Notes

Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir.

Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.

get_profile(arguments=None, generate_if_not_exist=True, workspace=None, compute_target=None)

Paramètres

Nom	Description
arguments Obligatoire	dict[str, object] Arguments associés au profil.
generate_if_not_exist Obligatoire	bool Indique s’il faut générer un profil s’il n’existe pas.
workspace Obligatoire	Workspace Espace de travail, requis pour les jeux de données temporaires (non inscrits).
compute_target Obligatoire	Union[ComputeTarget, str] Cible de calcul pour exécuter l’action de profil.

Retours

Type	Description
<xref:azureml.dataprep.DataProfile>	Schéma DataProfile du jeu de données.

Remarques

Pour un jeu de données inscrit auprès d’un espace de travail Azure Machine Learning, cette méthode récupère un profil existant précédemment créé en appelant get_profile s’il est toujours valide. Les profils sont invalidés si des modifications sont détectées dans le jeu de données ou que les arguments de get_profile sont différents de ceux utilisés lors de la génération du profil. Si le profil est absent ou invalidé, generate_if_not_exist détermine si un nouveau profil est généré.

Pour un jeu de données qui n’est pas inscrit auprès d’un espace de travail Azure Machine Learning, cette méthode exécute toujours generate_profile et renvoie le résultat.

get_snapshot

Récupère l’instantané du jeu de données par nom.

Notes

Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir.

Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.

get_snapshot(snapshot_name)

Paramètres

Nom	Description
snapshot_name Obligatoire	str Nom de l’instantané.

Retours

Type	Description
DatasetSnapshot	Objet d’instantané de jeu de données.

head

Extrait le nombre spécifié d’enregistrements à partir de ce jeu de données et les renvoie sous forme de trame de données.

Notes

Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir.

Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.

head(count)

Paramètres

Nom	Description
count Obligatoire	int Nombre d’enregistrements à extraire.

Retours

Type	Description
DataFrame	Trame de données Pandas.

list

Répertorie tous les jeux de données de l’espace de travail, y compris ceux dont la propriété is_visible est False.

Notes

Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir.

Utilisez plutôt get_all. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.

static list(workspace)

Paramètres

Nom	Description
workspace Obligatoire	Workspace Espace de travail pour lequel vous souhaitez récupérer la liste des jeux de données.

Retours

Type	Description
list[Dataset]	Liste des objets de jeu de données.

reactivate

Réactive un jeu de données archivé ou déconseillé.

Notes

Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir.

Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.

reactivate()

Retours

Type	Description
None	Aucun.

register

Inscrit le jeu de données dans l’espace de travail, ce qui le met à disposition des autres utilisateurs de l’espace de travail.

Notes

Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir.

Utilisez plutôt register. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.

register(workspace, name, description=None, tags=None, visible=True, exist_ok=False, update_if_exist=False)

Paramètres

Nom	Description
workspace Obligatoire	Workspace Espace de travail Azure Machine Learning dans lequel le jeu de données doit être enregistré.
name Obligatoire	str Nom du jeu de données figurant dans l’espace de travail.
description Obligatoire	str Description du jeu de données.
tags Obligatoire	dict[str, str] Étiquettes à associer au jeu de données.
visible Obligatoire	bool Indique si le jeu de données est visible dans l’IU. Si la valeur est False, le jeu de données est masqué dans l’IU et disponible via le Kit de développement logiciel (SDK).
exist_ok Obligatoire	bool Si la valeur est True, la méthode renvoie le jeu de données, à condition que celui-ci existe déjà dans l’espace de travail donné, sinon une erreur est générée.
update_if_exist Obligatoire	bool Si les valeurs des propriétés `exist_ok` et `update_if_exist` sont toutes deux True, cette méthode met la définition à jour et renvoie le jeu de données mis à jour.

Retours

Type	Description
Dataset	Objet de jeu de données inscrit dans l’espace de travail.

sample

Génère un nouvel échantillon à partir du jeu de données source, en utilisant la stratégie d’échantillonnage et les paramètres fournis.

Notes

Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir.

Créez un jeu de données TabularDataset en appelant les méthodes statiques de Dataset.Tabular et utilisez la méthode take_sample. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.

sample(sample_strategy, arguments)

Paramètres

Nom

Description

sample_strategy

Obligatoire

str

Exemple de stratégie à utiliser. Les valeurs acceptées sont « top_n », « simple_random » ou « stratified ».

arguments

Obligatoire

dict[str, object]

Dictionnaire contenant les clés de la colonne « Argument facultatif » de la liste ci-dessus, et les valeurs de la colonne « Type ». Seuls les arguments de la méthode d’échantillonnage correspondante peuvent être utilisés. Par exemple, pour un type d’échantillon « simple_random », vous pouvez uniquement spécifier un dictionnaire contenant les clés « probabilité » et « seed ».

Retours

Type	Description
Dataset	Objet de jeu de données en tant qu’échantillon du jeu de données d’origine.

Remarques

Les échantillons sont générés en exécutant le pipeline de transformation défini par ce jeu de données, puis en appliquant la stratégie et les paramètres d’échantillonnage aux données de sortie. Chaque méthode d’échantillonnage prend en charge les arguments facultatifs suivants :

top_n
- Arguments facultatifs
  - n, type entier. Sélectionnez les N premières lignes comme échantillon.
simple_random
- Arguments facultatifs
  - probabilité, type float. Échantillonnage aléatoire simple où chaque ligne a la même probabilité d’être sélectionnée. La probabilité doit être un nombre compris entre 0 et 1.
  - seed, type float. Utilisé par le générateur de nombres aléatoires. À utiliser à des fins de reproductibilité.
stratified
- Arguments facultatifs
  - colonnes, type list[str]. Liste des colonnes de strates dans les données.
  - seed, type float. Utilisé par le générateur de nombres aléatoires. À utiliser à des fins de reproductibilité.
  - fractions, type dict[tuple, float]. Tuple : valeurs de colonne qui définissent une strate. Doivent être dans le même ordre que les noms des colonnes. Float : poids attaché à une strate pendant l’échantillonnage.

Les extraits de code suivants sont des exemples de modèles de conception correspondant à différentes méthodes d’échantillonnage.


   # sample_strategy "top_n"
   top_n_sample_dataset = dataset.sample('top_n', {'n': 5})

   # sample_strategy "simple_random"
   simple_random_sample_dataset = dataset.sample('simple_random', {'probability': 0.3, 'seed': 10.2})

   # sample_strategy "stratified"
   fractions = {}
   fractions[('THEFT',)] = 0.5
   fractions[('DECEPTIVE PRACTICE',)] = 0.2

   # take 50% of records with "Primary Type" as THEFT and 20% of records with "Primary Type" as
   # DECEPTIVE PRACTICE into sample Dataset
   sample_dataset = dataset.sample('stratified', {'columns': ['Primary Type'], 'fractions': fractions})

to_pandas_dataframe

Crée une trame de données Pandas en exécutant le pipeline de transformation défini par cette définition de jeu de données.

Notes

Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir.

Créez un jeu de données TabularDataset en appelant les méthodes statiques de Dataset.Tabular et utilisez la méthode to_pandas_dataframe. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.

to_pandas_dataframe()

Retours

Type	Description
DataFrame	Trame de données Pandas.

Remarques

Renvoie une trame de données entièrement matérialisée en mémoire.

to_spark_dataframe

Crée une trame de données Spark qui peut exécuter le pipeline de transformation défini par cette définition de jeu de données.

Notes

Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir.

Créez un jeu de données TabularDataset en appelant les méthodes statiques de Dataset.Tabular et utilisez la méthode to_spark_dataframe. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.

to_spark_dataframe()

Retours

Type	Description
DataFrame	Trame de données Spark.

Remarques

La trame de données Spark renvoyée n’est qu’un plan d’exécution et ne contient en fait aucune donnée, car les trames de données Spark sont évaluées en différé.

update

Met à jour les attributs modifiables du jeu de données dans l’espace de travail, et renvoie le jeu de données mis à jour à partir de l’espace de travail.

Notes

Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir.

Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.

update(name=None, description=None, tags=None, visible=None)

Paramètres

Nom	Description
name Obligatoire	str Nom du jeu de données figurant dans l’espace de travail.
description Obligatoire	str Description des données.
tags Obligatoire	dict[str, str] Étiquettes auxquelles associer le jeu de données.
visible Obligatoire	bool Indique si le jeu de données est visible dans l’IU.

Retours

Type	Description
Dataset	Objet de jeu de données mis à jour à partir de l’espace de travail.

update_definition

Met à jour la définition du jeu de données.

Notes

Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir.

Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.

update_definition(definition, definition_update_message)

Paramètres

Nom	Description
definition Obligatoire	DatasetDefinition Nouvelle définition de ce jeu de données.
definition_update_message Obligatoire	str Message de mise à jour de la définition.

Retours

Type	Description
Dataset	Objet de jeu de données mis à jour à partir de l’espace de travail.

Remarques

Pour consommer le jeu de données mis à jour, utilisez l’objet renvoyé par cette méthode.

Attributs

definition

Renvoie la définition du jeu de données actuel.

Notes

Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir.

Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.

Retours

Type	Description
DatasetDefinition	Définition du jeu de données.

Remarques

Une définition de jeu de données est une série d’étapes qui spécifient comment lire et transformer des données.

Un jeu de données inscrit dans un espace de travail Azure Machine Learning peut avoir plusieurs définitions, chacune créée en appelant update_definition. Chaque définition possède un identificateur unique. L’existence de ces différentes définitions vous permet d’apporter des modifications aux jeux de données existants sans arrêter les modèles et les pipelines qui dépendent de l’ancienne définition.

Pour les jeux de données non inscrits, il n’existe qu’une seule définition.

definition_version

Renvoie la version de la définition actuelle du jeu de données.

Notes

Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir.

Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.

Retours

Type	Description
str	Version de la définition du jeu de données.

Remarques

Une définition de jeu de données est une série d’étapes qui spécifient comment lire et transformer des données.

Un jeu de données inscrit dans un espace de travail Azure Machine Learning peut avoir plusieurs définitions, chacune créée en appelant update_definition. Chaque définition possède un identificateur unique. La définition actuelle est la dernière créée, et son ID est renvoyé par cette méthode.

Pour les jeux de données non inscrits, il n’existe qu’une seule définition.

description

Renvoie la description du jeu de données.

Retours

Type	Description
str	Description du jeu de données.

Remarques

La présence de la description des données dans le jeu de données permet aux utilisateurs de l’espace de travail de savoir à quoi correspondent les données pour pouvoir les utiliser.

id

Si le jeu de données a été inscrit dans un espace de travail, renvoie l’ID du jeu de données. Sinon, retourne None.

Retours

Type	Description
str	ID du jeu de données.

is_visible

Détermine la visibilité d’un jeu de données inscrit dans l’IU de l’espace de travail Azure Machine Learning.

Notes

Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir.

Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.

Retours

Type	Description
bool	Visibilité du jeu de données.

Remarques

Valeurs renvoyées :

True : le jeu de données est visible dans l’IU de l’espace de travail. Par défaut.
False : le jeu de données est masqué dans l’IU de l’espace de travail.

N’a aucun effet sur les jeux de données non-inscrits.

name

Renvoie le nom du jeu de données.

Retours

Type	Description
str	Nom du jeu de données.

state

Renvoie l’état du jeu de données.

Notes

Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir.

Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.

Retours

Type	Description
str	État du jeu de données.

Remarques

La signification et l’effet des états sont les suivants :

actif. Les définitions actives peuvent faire l’objet de tous types d’actions.
Action déconseillée. Une définition déconseillée peut être utilisée, mais un avertissement est consigné dans les journaux chaque fois que les données sous-jacentes sont consultées.
Archivé. Une définition archivée ne peut pas être utilisée pour effectuer une quelconque action. Pour effectuer des actions sur une définition archivée, celle-ci doit être réactivée.

workspace

Si le jeu de données a été inscrit dans un espace de travail, celui-ci est renvoyé. Sinon, retourne None.

Retours

Type	Description
Workspace	Espace de travail.

Partager via

Dataset Classe

Constructeur

Paramètres

Remarques

Variables

Méthodes

archive

Retours

Remarques

auto_read_files

Paramètres

Retours

Remarques

compare_profiles

Paramètres

Retours

Remarques

create_snapshot

Paramètres

Retours

Remarques

delete_snapshot

Paramètres

Retours

Remarques

deprecate

Paramètres

Retours

Remarques

diff

Paramètres

Retours

from_binary_files

Paramètres

Retours

Remarques

from_delimited_files

Paramètres

Retours

Remarques

from_excel_files

Paramètres

Retours

Remarques

from_json_files

Paramètres

Retours

from_pandas_dataframe

Paramètres

Retours

Remarques

from_parquet_files

Paramètres

Retours

Remarques

from_sql_query

Paramètres

Retours

generate_profile

Paramètres

Retours

Remarques

get

Paramètres

Retours

Remarques

get_all

Paramètres

Retours

get_all_snapshots

Retours

get_by_id

Paramètres

Retours

get_by_name

Paramètres

Retours

get_definition

Paramètres