FileDatasetFactory Classe
Contiene metodi per creare un set di dati di file per Azure Machine Learning.
Viene FileDataset creato dal from_files metodo definito in questa classe.
Per altre informazioni sull'uso dei set di dati di file, vedere il notebook https://aka.ms/filedataset-samplenotebook.
- Ereditarietà
-
builtins.objectFileDatasetFactory
Costruttore
FileDatasetFactory()
Metodi
from_files |
Creare un FileDataset per rappresentare i flussi di file. |
upload_directory |
Creare un set di dati dalla directory di origine. |
from_files
Creare un FileDataset per rappresentare i flussi di file.
static from_files(path, validate=True, partition_format=None, is_file=False)
Parametri
Percorso dei file di origine, che possono essere un singolo valore o un elenco di stringhe url (http[s]|abfs[s]|wasb[s]), DataPath oggetto o tuple di Datastore e percorso relativo. Si noti che l'elenco di percorsi non può includere sia url che archivi dati insieme.
- validate
- bool
Indica se è possibile convalidare se i dati possono essere caricati dal set di dati restituito. Impostazione predefinita su True. La convalida richiede che l'origine dati sia accessibile dal calcolo corrente.
- partition_format
- str
Specificare il formato di partizione del percorso. Il valore predefinito è Nessuna. Le informazioni di partizione di ogni percorso verranno estratte in colonne in base al formato specificato. La parte di formato '{column_name}' crea una colonna stringa e '{column_name:y/MM/dd/HH/mm/ss}' crea una colonna datetime, dove 'y', 'MM', 'dd', 'HH', 'mm' e 'ss' vengono usati per estrarre anno, mese, giorno, ora e secondo per il tipo datetime. Il formato deve iniziare dalla posizione della prima chiave di partizione fino alla fine del percorso del file. Ad esempio, dato il percorso '.. /Accounts/2019/01/01/data.jsonl' in cui la partizione è in base al nome e all'ora del reparto, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.jsonl' crea una colonna stringa 'Department' con il valore 'Accounts' e una colonna datetime 'PartitionDate' con il valore '2019-01-01'.
- is_file
- bool
Indica se tutti i percorsi di input puntano ai file. Il motore del set di dati per impostazione predefinita tenta di verificare se i percorsi di input puntano ai file. Impostare questo flag su True quando tutti i percorsi di input sono File per velocizzare la creazione del set di dati.
Restituisce
Un oggetto FileDataset.
Tipo restituito
Commenti
from_files crea un oggetto di classe, che definisce le operazioni per caricare i flussi di FileDataset file dal percorso specificato.
Affinché i dati siano accessibili da Azure Machine Learning, i file specificati path
da devono trovarsi in un Datastore oggetto o essere accessibili con URL Web pubblici o URL di BLOB, ADLS Gen1 e ADLS Gen2.
Il token AAD degli utenti verrà usato nel notebook o nel programma Python locale se chiama direttamente una di queste funzioni: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files l'identità della destinazione di calcolo verrà usata nei processi inviati da Experiment.submit per l'autenticazione di accesso ai dati. Ulteriori informazioni: https://aka.ms/data-access
from azureml.core import Dataset, Datastore
# create file dataset from a single file in datastore
datastore = Datastore.get(workspace, 'workspaceblobstore')
file_dataset_1 = Dataset.File.from_files(path=(datastore,'image/dog.jpg'))
# create file dataset from a single directory in datastore
file_dataset_2 = Dataset.File.from_files(path=(datastore, 'image/'))
# create file dataset from all jpeg files in the directory
file_dataset_3 = Dataset.File.from_files(path=(datastore,'image/**/*.jpg'))
# create filedataset from multiple paths
data_paths = [(datastore, 'image/dog.jpg'), (datastore, 'image/cat.jpg')]
file_dataset_4 = Dataset.File.from_files(path=data_paths)
# create file dataset from url
file_dataset_5 = Dataset.File.from_files(path='https://url/image/cat.jpg')
upload_directory
Creare un set di dati dalla directory di origine.
static upload_directory(src_dir, target, pattern=None, overwrite=False, show_progress=True)
Parametri
Obbligatorio, il percorso dell'archivio dati in cui verranno caricati i file.
- pattern
- str
Facoltativo, se specificato, filtra tutti i nomi di percorso corrispondenti al modello specificato, simile al pacchetto glob Python, che supporta '*', '?' e gli intervalli di caratteri espressi con [].
- show_progress
- bool
Facoltativo, indica se visualizzare lo stato di avanzamento del caricamento nella console. Le impostazioni predefinite sono True.
Restituisce
Set di dati registrato.
Tipo restituito
Commenti e suggerimenti
https://aka.ms/ContentUserFeedback.
Presto disponibile: Nel corso del 2024 verranno gradualmente disattivati i problemi di GitHub come meccanismo di feedback per il contenuto e ciò verrà sostituito con un nuovo sistema di feedback. Per altre informazioni, vedereInvia e visualizza il feedback per