FileDatasetFactory Classe
Contient les méthodes permettant de créer un jeu de données de fichier pour Azure Machine Learning.
FileDataset est créé à partir de la méthode from_files définie dans cette classe.
Pour plus d’informations sur l’utilisation des jeux de données de fichiers, consultez le notebook https://aka.ms/filedataset-samplenotebook.
- Héritage
-
builtins.objectFileDatasetFactory
Constructeur
FileDatasetFactory()
Méthodes
from_files |
Crée un FileDataset pour représenter les flux de fichiers. |
upload_directory |
Crée un jeu de données à partir du répertoire source. |
from_files
Crée un FileDataset pour représenter les flux de fichiers.
static from_files(path, validate=True, partition_format=None, is_file=False)
Paramètres
Chemin d’accès aux fichiers sources, qui peuvent être une valeur unique ou une liste de chaîne d’URL (http[s]|abfs[s]|wasb[s]), DataPath objet ou tuple du chemin d’accès Datastore relatif. Notez que la liste des chemins d’accès ne peut pas inclure à la fois des URL et des magasins de banques.
- validate
- bool
Indique s’il est nécessaire de vérifier si les données peuvent être chargées à partir du jeu de données retourné. La valeur par défaut est True. La validation est possible uniquement si la source de données est accessible à partir de la cible de calcul actuelle.
- partition_format
- str
Spécifie le format de partition du chemin. La valeur par défaut est None. Les informations de partition de chaque chemin sont extraites en colonnes en fonction du format spécifié. La partie de format « {column_name} » crée une colonne de chaîne, et « {column_name:yyyy/MM/dd/HH/mm/ss} » crée une colonne DateHeure, où « yyyy », « MM », « dd », « HH », « mm » et « ss » sont utilisés pour extraire l’année, le mois, le jour, l’heure, les minutes et les secondes pour le type DateHeure. Le format doit commencer à partir de la position de la première clé de partition et se poursuivre jusqu’à la fin du chemin d’accès au fichier. Par exemple, étant donné le chemin « ../Accounts/2019/01/01/data.jsonl » où la partition se fait par nom de service et par heure, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.jsonl crée une colonne de chaîne « Department » avec la valeur « Accounts » et une colonne DateHeure « PartitionDate » avec la valeur « 2019-01-01 ».
- is_file
- bool
Indique si tous les chemins d’accès d’entrée pointent vers des fichiers. Par défaut, le moteur de jeu de données tente de vérifier si les chemins d’entrée pointent vers des fichiers. Affectez à cet indicateur la valeur True lorsque tous les chemins d’accès d’entrée sont des fichiers pour accélérer la création du jeu de données.
Retours
Objet FileDataset.
Type de retour
Remarques
from_files crée un objet de classe FileDataset, qui définit les opérations de chargement des flux de fichiers à partir du chemin fourni.
Pour que les données soient accessibles par Azure Machine Learning, les fichiers spécifiés par path
doivent se trouver dans un ou être accessibles avec les Datastore URL web publiques ou l’URL de Blob, ADLS Gen1 et ADLS Gen2.
le jeton AAD des utilisateurs sera utilisé dans le notebook ou le programme Python local s’il appelle directement l’une de ces fonctions : FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files l’identité de la cible de calcul sera utilisée dans les travaux soumis par Experiment.submit pour l’authentification d’accès aux données. En savoir plus : https://aka.ms/data-access
from azureml.core import Dataset, Datastore
# create file dataset from a single file in datastore
datastore = Datastore.get(workspace, 'workspaceblobstore')
file_dataset_1 = Dataset.File.from_files(path=(datastore,'image/dog.jpg'))
# create file dataset from a single directory in datastore
file_dataset_2 = Dataset.File.from_files(path=(datastore, 'image/'))
# create file dataset from all jpeg files in the directory
file_dataset_3 = Dataset.File.from_files(path=(datastore,'image/**/*.jpg'))
# create filedataset from multiple paths
data_paths = [(datastore, 'image/dog.jpg'), (datastore, 'image/cat.jpg')]
file_dataset_4 = Dataset.File.from_files(path=data_paths)
# create file dataset from url
file_dataset_5 = Dataset.File.from_files(path='https://url/image/cat.jpg')
upload_directory
Crée un jeu de données à partir du répertoire source.
static upload_directory(src_dir, target, pattern=None, overwrite=False, show_progress=True)
Paramètres
Obligatoire. Chemin du magasin de données où les fichiers sont chargés.
- pattern
- str
Facultatif. Le cas échéant, filtre tous les noms de chemins correspondant au modèle donné, de manière similaire au package glob Python, prenant en charge « * », « ? » ainsi que les plages de caractères exprimées avec [].
- show_progress
- bool
Facultatif. Indique s’il est nécessaire d’afficher la progression du chargement dans la console. La valeur par défaut est True.
Retours
Jeu de données inscrit.
Type de retour
Commentaires
https://aka.ms/ContentUserFeedback.
Bientôt disponible : Tout au long de 2024, nous allons supprimer progressivement GitHub Issues comme mécanisme de commentaires pour le contenu et le remplacer par un nouveau système de commentaires. Pour plus d’informations, consultezEnvoyer et afficher des commentaires pour