FileDatasetFactory Klasse

Enthält Methoden zum Erstellen eines Dateidatasets für Azure Machine Learning.

Ein FileDataset wird mit der in dieser Klasse definierten from_files-Methode erstellt.

Weitere Informationen zum Arbeiten mit Dateidatasets finden Sie im Notebook https://aka.ms/filedataset-samplenotebook.

Vererbung
builtins.object
FileDatasetFactory

Konstruktor

FileDatasetFactory()

Methoden

from_files

Erstellen eines FileDataset zum Darstellen von Dateistreams.

upload_directory

Erstellen eines Datasets aus dem Quellverzeichnis.

from_files

Erstellen eines FileDataset zum Darstellen von Dateistreams.

static from_files(path, validate=True, partition_format=None, is_file=False)

Parameter

path
Union[str, list[str], DataPath, list[DataPath], (Datastore, str), list[(Datastore, str)]]
Erforderlich

Der Pfad zu den Quelldateien, die ein einzelner Wert oder eine Liste von URL-Zeichenfolgen (http[s]|abfs[s]|wasb[s]), DataPath Objekt oder Tupel von Datastore und relativer Pfad sein können. Die Liste der Pfade kann nicht sowohl URLs als auch Datenspeicher enthalten.

validate
bool
Erforderlich

Gibt an, ob überprüft werden soll, ob Daten aus dem zurückgegebenen Dataset geladen werden können. Der Standardwert ist „True“. Die Überprüfung erfordert, dass über die aktuelle Computeressource auf die Datenquelle zugegriffen werden kann.

partition_format
str
Erforderlich

Angeben des Partitionsformats des Pfads. Der Standardwert ist „None“. Die Partitionsinformationen für die einzelnen Pfade werden basierend auf dem angegebenen Format in Spalten extrahiert. Mit dem Formatteil „{column_name}“ wird eine Zeichenfolgenspalte erstellt, und „{column_name:yyyyyy/MM/dd/HH/mm/ss}“ erstellt eine datetime-Spalte, wobei „yyyy“, „MM“, „dd“, „HH“, „mm“ und „ss“ verwendet werden, um Jahr, Monat, Tag, Stunde, Minute und Sekunde für den datetime-Typ zu extrahieren. Das Format muss an der Position des ersten Partitionsschlüssels beginnen und bis zum Ende des Dateipfads reichen. Geben Sie beispielsweise den Pfad „../Accounts/2019/01/01/data.jsonl“ an. Die Partition erfolgt dabei nach Abteilungsname und Uhrzeit. „partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.jsonl“ erstellt eine Zeichenfolgenspalte namens „Department“ (Abteilung) mit dem Wert „Accounts“ (Konten) und eine datetime-Spalte namens „PartitionDate“ (Partitionsdatum) mit dem Wert „2019-01-01“.

is_file
bool
Erforderlich

Gibt an, ob alle Eingabepfade auf Dateien verweisen. Das Datasetmodul versucht standardmäßig, zu überprüfen, ob Eingabepfade auf Dateien verweisen. Legen Sie dieses Flag auf „True“ fest, wenn es sich bei allen Eingabepfaden um Dateien handelt, um die Dataseterstellung zu beschleunigen.

Gibt zurück

Ein FileDataset-Objekt.

Rückgabetyp

Hinweise

from_files erstellt ein Objekt der FileDataset-Klasse, das die Vorgänge zum Laden von Dateistreams aus dem angegebenen Pfad definiert.

Damit Azure Machine Learning auf die Daten zugreifen kann, müssen sich die von path angegebenen Dateien in einem Datastore befinden oder mit öffentlichen Web-URLs oder der URL von Blob, ADLS Gen1 und ADLS Gen2 zugänglich sein.

Das AAD-Token des Benutzers wird im Notebook oder im lokalen Python-Programm verwendet, wenn es direkt eine der folgenden Funktionen aufruft: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files die Identität des Computeziels wird in Aufträgen verwendet, die von Experiment.submit für die Datenzugriffsauthentifizierung übermittelt werden. Weitere Informationen: https://aka.ms/data-access


   from azureml.core import Dataset, Datastore

   # create file dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   file_dataset_1 = Dataset.File.from_files(path=(datastore,'image/dog.jpg'))

   # create file dataset from a single directory in datastore
   file_dataset_2 = Dataset.File.from_files(path=(datastore, 'image/'))

   # create file dataset from all jpeg files in the directory
   file_dataset_3 = Dataset.File.from_files(path=(datastore,'image/**/*.jpg'))

   # create filedataset from multiple paths
   data_paths = [(datastore, 'image/dog.jpg'), (datastore, 'image/cat.jpg')]
   file_dataset_4 = Dataset.File.from_files(path=data_paths)

   # create file dataset from url
   file_dataset_5 = Dataset.File.from_files(path='https://url/image/cat.jpg')

upload_directory

Erstellen eines Datasets aus dem Quellverzeichnis.

static upload_directory(src_dir, target, pattern=None, overwrite=False, show_progress=True)

Parameter

src_dir
str
Erforderlich

Das lokale Verzeichnis, das hochgeladen werden soll.

target
Union[DataPath, Datastore, tuple(Datastore, str)]
Erforderlich

Erforderlich. Der Datenspeicherpfad, in den die Dateien hochgeladen werden.

pattern
str
Erforderlich

Optional. Wenn angegeben, werden ähnlich wie beim Python-Globpaket alle Pfadnamen gefiltert, die dem angegebenen Muster entsprechen. Unterstützt werden Sternchen (*), Fragezeichen (?) und mit [] ausgedrückte Zeichenbereiche.

show_progress
bool
Erforderlich

Optional. Gibt an, ob der Fortschritt des Uploads in der Konsole angezeigt werden soll. Der Standardwert ist „True“.

Gibt zurück

Das registrierte Dataset.

Rückgabetyp