Share via


FileDatasetFactory Classe

Contient les méthodes permettant de créer un jeu de données de fichier pour Azure Machine Learning.

FileDataset est créé à partir de la méthode from_files définie dans cette classe.

Pour plus d’informations sur l’utilisation des jeux de données de fichiers, consultez le notebook https://aka.ms/filedataset-samplenotebook.

Héritage
builtins.object
FileDatasetFactory

Constructeur

FileDatasetFactory()

Méthodes

from_files

Crée un FileDataset pour représenter les flux de fichiers.

upload_directory

Crée un jeu de données à partir du répertoire source.

from_files

Crée un FileDataset pour représenter les flux de fichiers.

static from_files(path, validate=True, partition_format=None, is_file=False)

Paramètres

path
Union[str, list[str], DataPath, list[DataPath], (Datastore, str), list[(Datastore, str)]]
Obligatoire

Chemin d’accès aux fichiers sources, qui peuvent être une valeur unique ou une liste de chaîne d’URL (http[s]|abfs[s]|wasb[s]), DataPath objet ou tuple du chemin d’accès Datastore relatif. Notez que la liste des chemins d’accès ne peut pas inclure à la fois des URL et des magasins de banques.

validate
bool
Obligatoire

Indique s’il est nécessaire de vérifier si les données peuvent être chargées à partir du jeu de données retourné. La valeur par défaut est True. La validation est possible uniquement si la source de données est accessible à partir de la cible de calcul actuelle.

partition_format
str
Obligatoire

Spécifie le format de partition du chemin. La valeur par défaut est None. Les informations de partition de chaque chemin sont extraites en colonnes en fonction du format spécifié. La partie de format « {column_name} » crée une colonne de chaîne, et « {column_name:yyyy/MM/dd/HH/mm/ss} » crée une colonne DateHeure, où « yyyy », « MM », « dd », « HH », « mm » et « ss » sont utilisés pour extraire l’année, le mois, le jour, l’heure, les minutes et les secondes pour le type DateHeure. Le format doit commencer à partir de la position de la première clé de partition et se poursuivre jusqu’à la fin du chemin d’accès au fichier. Par exemple, étant donné le chemin « ../Accounts/2019/01/01/data.jsonl » où la partition se fait par nom de service et par heure, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.jsonl crée une colonne de chaîne « Department » avec la valeur « Accounts » et une colonne DateHeure « PartitionDate » avec la valeur « 2019-01-01 ».

is_file
bool
Obligatoire

Indique si tous les chemins d’accès d’entrée pointent vers des fichiers. Par défaut, le moteur de jeu de données tente de vérifier si les chemins d’entrée pointent vers des fichiers. Affectez à cet indicateur la valeur True lorsque tous les chemins d’accès d’entrée sont des fichiers pour accélérer la création du jeu de données.

Retours

Objet FileDataset.

Type de retour

Remarques

from_files crée un objet de classe FileDataset, qui définit les opérations de chargement des flux de fichiers à partir du chemin fourni.

Pour que les données soient accessibles par Azure Machine Learning, les fichiers spécifiés par path doivent se trouver dans un ou être accessibles avec les Datastore URL web publiques ou l’URL de Blob, ADLS Gen1 et ADLS Gen2.

le jeton AAD des utilisateurs sera utilisé dans le notebook ou le programme Python local s’il appelle directement l’une de ces fonctions : FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files l’identité de la cible de calcul sera utilisée dans les travaux soumis par Experiment.submit pour l’authentification d’accès aux données. En savoir plus : https://aka.ms/data-access


   from azureml.core import Dataset, Datastore

   # create file dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   file_dataset_1 = Dataset.File.from_files(path=(datastore,'image/dog.jpg'))

   # create file dataset from a single directory in datastore
   file_dataset_2 = Dataset.File.from_files(path=(datastore, 'image/'))

   # create file dataset from all jpeg files in the directory
   file_dataset_3 = Dataset.File.from_files(path=(datastore,'image/**/*.jpg'))

   # create filedataset from multiple paths
   data_paths = [(datastore, 'image/dog.jpg'), (datastore, 'image/cat.jpg')]
   file_dataset_4 = Dataset.File.from_files(path=data_paths)

   # create file dataset from url
   file_dataset_5 = Dataset.File.from_files(path='https://url/image/cat.jpg')

upload_directory

Crée un jeu de données à partir du répertoire source.

static upload_directory(src_dir, target, pattern=None, overwrite=False, show_progress=True)

Paramètres

src_dir
str
Obligatoire

Répertoire local à charger.

target
Union[DataPath, Datastore, tuple(Datastore, str)]
Obligatoire

Obligatoire. Chemin du magasin de données où les fichiers sont chargés.

pattern
str
Obligatoire

Facultatif. Le cas échéant, filtre tous les noms de chemins correspondant au modèle donné, de manière similaire au package glob Python, prenant en charge « * », « ? » ainsi que les plages de caractères exprimées avec [].

show_progress
bool
Obligatoire

Facultatif. Indique s’il est nécessaire d’afficher la progression du chargement dans la console. La valeur par défaut est True.

Retours

Jeu de données inscrit.

Type de retour