FileDatasetFactory Klasse
Enthält Methoden zum Erstellen eines Dateidatasets für Azure Machine Learning.
Ein FileDataset wird mit der in dieser Klasse definierten from_files-Methode erstellt.
Weitere Informationen zum Arbeiten mit Dateidatasets finden Sie im Notebook https://aka.ms/filedataset-samplenotebook.
- Vererbung
-
builtins.objectFileDatasetFactory
Konstruktor
FileDatasetFactory()
Methoden
from_files |
Erstellen eines FileDataset zum Darstellen von Dateistreams. |
upload_directory |
Erstellen eines Datasets aus dem Quellverzeichnis. |
from_files
Erstellen eines FileDataset zum Darstellen von Dateistreams.
static from_files(path, validate=True, partition_format=None, is_file=False)
Parameter
- path
- Union[str, list[str]<xref:,azureml.data.datapath.DataPath>, list[DataPath]<xref:,>(Datastore, str), list[(Datastore, str)]]
Der Pfad zu den Quelldateien, die ein einzelner Wert oder eine Liste der URL-Zeichenfolge (http[s]|abfs[s]|wasb[s] DataPath ), Objekt oder Tuple von Datastore und relativer Pfad sein können. Die Liste der Pfade kann nicht sowohl URLs als auch Datenspeicher enthalten.
- validate
- bool
Gibt an, ob überprüft werden soll, ob Daten aus dem zurückgegebenen Dataset geladen werden können. Der Standardwert ist „True“. Die Überprüfung erfordert, dass über die aktuelle Computeressource auf die Datenquelle zugegriffen werden kann.
- partition_format
- str
Angeben des Partitionsformats des Pfads. Der Standardwert ist „None“. Die Partitionsinformationen für die einzelnen Pfade werden basierend auf dem angegebenen Format in Spalten extrahiert. Mit dem Formatteil „{column_name}“ wird eine Zeichenfolgenspalte erstellt, und „{column_name:yyyyyy/MM/dd/HH/mm/ss}“ erstellt eine datetime-Spalte, wobei „yyyy“, „MM“, „dd“, „HH“, „mm“ und „ss“ verwendet werden, um Jahr, Monat, Tag, Stunde, Minute und Sekunde für den datetime-Typ zu extrahieren. Das Format muss an der Position des ersten Partitionsschlüssels beginnen und bis zum Ende des Dateipfads reichen. Geben Sie beispielsweise den Pfad „../Accounts/2019/01/01/data.jsonl“ an. Die Partition erfolgt dabei nach Abteilungsname und Uhrzeit. „partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.jsonl“ erstellt eine Zeichenfolgenspalte namens „Department“ (Abteilung) mit dem Wert „Accounts“ (Konten) und eine datetime-Spalte namens „PartitionDate“ (Partitionsdatum) mit dem Wert „2019-01-01“.
- is_file
- bool
Gibt an, ob alle Eingabepfade auf Dateien verweisen. Das Datasetmodul versucht standardmäßig, zu überprüfen, ob Eingabepfade auf Dateien verweisen. Legen Sie dieses Flag auf „True“ fest, wenn es sich bei allen Eingabepfaden um Dateien handelt, um die Dataseterstellung zu beschleunigen.
Gibt zurück
Ein FileDataset-Objekt.
Rückgabetyp
Hinweise
from_files erstellt ein Objekt der FileDataset-Klasse, das die Vorgänge zum Laden von Dateistreams aus dem angegebenen Pfad definiert.
Damit die daten von Azure Machine Learning zugänglich sind, müssen sich die von ihnen angegebenen path
Dateien in einer Datastore oder mit öffentlichen Web-URLs oder URL von Blob, ADLS Gen1 und ADLS Gen2 befinden.
Das AAD-Token der Benutzer wird im Notizbuch- oder lokalen Python-Programm verwendet, wenn er direkt eine dieser Funktionen aufruft: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files die Identität des Berechnungsziels wird in Aufträgen verwendet, die von Experiment.submit für die Datenzugriffsauthentifizierung übermittelt werden. Weitere Informationen: https://aka.ms/data-access
from azureml.core import Dataset, Datastore
# create file dataset from a single file in datastore
datastore = Datastore.get(workspace, 'workspaceblobstore')
file_dataset_1 = Dataset.File.from_files(path=(datastore,'image/dog.jpg'))
# create file dataset from a single directory in datastore
file_dataset_2 = Dataset.File.from_files(path=(datastore, 'image/'))
# create file dataset from all jpeg files in the directory
file_dataset_3 = Dataset.File.from_files(path=(datastore,'image/**/*.jpg'))
# create filedataset from multiple paths
data_paths = [(datastore, 'image/dog.jpg'), (datastore, 'image/cat.jpg')]
file_dataset_4 = Dataset.File.from_files(path=data_paths)
# create file dataset from url
file_dataset_5 = Dataset.File.from_files(path='https://url/image/cat.jpg')
upload_directory
Erstellen eines Datasets aus dem Quellverzeichnis.
static upload_directory(src_dir, target, pattern=None, overwrite=False, show_progress=True)
Parameter
Erforderlich. Der Datenspeicherpfad, in den die Dateien hochgeladen werden.
- pattern
- str
Optional. Wenn angegeben, werden ähnlich wie beim Python-Globpaket alle Pfadnamen gefiltert, die dem angegebenen Muster entsprechen. Unterstützt werden Sternchen (*), Fragezeichen (?) und mit [] ausgedrückte Zeichenbereiche.
- show_progress
- bool
Optional. Gibt an, ob der Fortschritt des Uploads in der Konsole angezeigt werden soll. Der Standardwert ist „True“.
Gibt zurück
Das registrierte Dataset.
Rückgabetyp
Feedback
Feedback senden und anzeigen für