FileDataset Klasse

Stellt eine Sammlung von Dateiverweisen in Datenspeichern oder öffentlichen URLs dar, die in Azure Machine Learning verwendet werden sollen.

Ein FileDataset definiert eine Reihe von verzögert ausgewerteten, unveränderlichen Vorgängen zum Laden von Daten aus der Datenquelle in Dateistreams. Daten werden erst aus der Quelle geladen, wenn FileDataset aufgefordert wird, Daten zu liefern.

Ein FileDataset wird mit der from_files-Methode der FileDatasetFactory-Klasse erstellt.

Weitere Informationen finden Sie im Artikel Hinzufügen & Registrieren von Datasets. Informationen zu den ersten Schritten mit Dateidatasets finden Sie unter https://aka.ms/filedataset-samplenotebook.

Initialisieren Sie das FileDataset-Objekt.

Dieser Konstruktor sollte nicht direkt aufgerufen werden. Das Dataset soll mithilfe der FileDatasetFactory -Klasse erstellt werden.

Vererbung
FileDataset

Konstruktor

FileDataset()

Hinweise

FileDataset kann als Eingabe für eine Experimentausführung verwendet werden. Es kann auch bei einem Arbeitsbereich mit einem angegebenen Namen registriert und später mit diesem Namen abgerufen werden.

FileDataset kann durch Aufrufen verschiedener Untereinteilungsmethoden, die für diese Klasse verfügbar sind, teilbar sein. Das Ergebnis der Untereinteilung ist immer ein neues FileDataset.

Das eigentliche Laden von Daten erfolgt, wenn FileDataset aufgefordert wird, die Daten in einen anderen Speichermechanismus zu übertragen (z. B. heruntergeladene oder in den lokalen Pfad eingebundene Dateien).

Methoden

as_cache

Hinweis

Dies ist eine experimentelle Methode, die sich jederzeit ändern kann. Unter https://aka.ms/azuremlexperimental finden Sie weitere Informationen.

Erstellen Sie eine DatacacheConsumptionConfig, die einem datacache_store und einem Dataset zugeordnet ist.

as_download

Erstellen Sie eine DatasetConsumptionConfig-Datei mit eingestelltem Downloadmodus.

Bei der übermittelten Ausführung werden Dateien im Dataset in den lokalen Pfad auf dem Computeziel heruntergeladen. Der Downloadspeicherort kann aus Argumentwerten und dem Feld input_datasets des Ausführungskontexts abgerufen werden. Wir generieren automatisch einen Eingabenamen. Wenn Sie einen benutzerdefinierten Eingabenamen angeben möchten, rufen Sie die Methode as_named_input auf.


   # Given a run submitted with dataset input like this:
   dataset_input = dataset.as_download()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The download location can be retrieved from argument values
   import sys
   download_location = sys.argv[1]

   # The download location can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   download_location = Run.get_context().input_datasets['input_1']
as_hdfs

Legen Sie den Modus auf hdfs fest.

Bei der übermittelten Synapse-Ausführung werden Dateien in den Datasets in den lokalen Pfad auf dem Computeziel konvertiert. Der HDFS-Pfad kann aus Argumentwerten und den Betriebssystemumgebungsvariablen abgerufen werden.


   # Given a run submitted with dataset input like this:
   dataset_input = dataset.as_hdfs()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The hdfs path can be retrieved from argument values
   import sys
   hdfs_path = sys.argv[1]

   # The hdfs path can also be retrieved from input_datasets of the run context.
   import os
   hdfs_path = os.environ['input_<hash>']
as_mount

Erstellen Sie eine DatasetConsumptionConfig-Datei mit eingestelltem Einbindemodus.

Bei der übermittelten Ausführung werden Dateien in den Datasets in den lokalen Pfad auf dem Computeziel eingebunden. Der Bereitstellungspunkt kann aus Argumentwerten und dem Feld input_datasets des Ausführungskontexts abgerufen werden. Wir generieren automatisch einen Eingabenamen. Wenn Sie einen benutzerdefinierten Eingabenamen angeben möchten, rufen Sie die Methode as_named_input auf.


   # Given a run submitted with dataset input like this:
   dataset_input = dataset.as_mount()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The mount point can be retrieved from argument values
   import sys
   mount_point = sys.argv[1]

   # The mount point can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   mount_point = Run.get_context().input_datasets['input_1']
download

Laden Sie Dateistreams herunter, die vom Dataset als lokale Dateien definiert sind.

file_metadata

Hinweis

Dies ist eine experimentelle Methode, die sich jederzeit ändern kann. Unter https://aka.ms/azuremlexperimental finden Sie weitere Informationen.

Abrufen des Dateimetadatenausdrucks durch Angabe des Metadatenspaltennamens.

Unterstützte Dateimetadatenspalten sind „Size“, „LastModifiedTime“, „CreationTime“, „Extension“ und „CanSeek“.

filter

Hinweis

Dies ist eine experimentelle Methode, die sich jederzeit ändern kann. Unter https://aka.ms/azuremlexperimental finden Sie weitere Informationen.

Filtern Sie die Daten, und lassen Sie nur die Datensätze zurück, die mit dem angegebenen Ausdruck übereinstimmen.

hydrate

Hinweis

Dies ist eine experimentelle Methode, die sich jederzeit ändern kann. Unter https://aka.ms/azuremlexperimental finden Sie weitere Informationen.

Befüllen Sie das Dataset in die angeforderten Replikate, die in datacache_store angegeben sind.

mount

Erstellen Sie einen Kontext-Verwalter zum Einbinden von Dateistreams, die vom Dataset als lokale Dateien definiert werden.

random_split

Teilen Sie Dateistreams im Dataset nach dem Zufallsprinzip und ungefähr nach dem angegebenen Prozentsatz in zwei Teile auf.

Das erste zurückgegebene Dataset enthält ungefähr percentage der Gesamtzahl der Dateiverweise, und das zweite Dataset enthält die verbleibenden Dateiverweise.

skip

Überspringen Sie Dateistreams am Anfang des Datasets um die angegebene Anzahl.

take

Nehmen Sie eine Stichprobe der Dateistreams vom Anfang des Datasets nach der angegebenen Anzahl.

take_sample

Nehmen Sie eine zufällige Stichprobe von Dateistreams im Dataset, ungefähr nach der angegebenen Wahrscheinlichkeit.

to_path

Hier finden Sie eine Liste der Dateipfade für jeden Dateistream, der durch das Dataset definiert wird.

as_cache

Hinweis

Dies ist eine experimentelle Methode, die sich jederzeit ändern kann. Unter https://aka.ms/azuremlexperimental finden Sie weitere Informationen.

Erstellen Sie eine DatacacheConsumptionConfig, die einem datacache_store und einem Dataset zugeordnet ist.

as_cache(datacache_store)

Parameter

datacache_store
DatacacheStore
Erforderlich

Der Datencachespeicher, der zum Befüllen verwendet werden soll.

Gibt zurück

Das Konfigurationsobjekt, das beschreibt, wie der Datacache während der Ausführung materialisiert werden soll.

Rückgabetyp

as_download

Erstellen Sie eine DatasetConsumptionConfig-Datei mit eingestelltem Downloadmodus.

Bei der übermittelten Ausführung werden Dateien im Dataset in den lokalen Pfad auf dem Computeziel heruntergeladen. Der Downloadspeicherort kann aus Argumentwerten und dem Feld input_datasets des Ausführungskontexts abgerufen werden. Wir generieren automatisch einen Eingabenamen. Wenn Sie einen benutzerdefinierten Eingabenamen angeben möchten, rufen Sie die Methode as_named_input auf.


   # Given a run submitted with dataset input like this:
   dataset_input = dataset.as_download()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The download location can be retrieved from argument values
   import sys
   download_location = sys.argv[1]

   # The download location can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   download_location = Run.get_context().input_datasets['input_1']
as_download(path_on_compute=None)

Parameter

path_on_compute
str
Standardwert: None

Der Zielpfad auf dem Compute, unter dem die Daten zur Verfügung gestellt werden.

Hinweise

Wenn das Dataset aus dem Pfad einer einzelnen Datei erstellt wird, ist der Downloadspeicherort der Pfad der einzelnen heruntergeladenen Datei. Andernfalls ist der Downloadspeicherort der Pfad des umschließenden Ordners für alle heruntergeladenen Dateien.

Wenn path_on_compute mit einem / beginnt, wird er als absoluter Pfad behandelt. Wenn er nicht mit einem / beginnt, wird er als relativer Pfad relativ zum Arbeitsverzeichnis behandelt. Wenn Sie einen absoluten Pfad angegeben haben, stellen Sie sicher, dass der Auftrag über die Berechtigung zum Schreiben in dieses Verzeichnis verfügt.

as_hdfs

Legen Sie den Modus auf hdfs fest.

Bei der übermittelten Synapse-Ausführung werden Dateien in den Datasets in den lokalen Pfad auf dem Computeziel konvertiert. Der HDFS-Pfad kann aus Argumentwerten und den Betriebssystemumgebungsvariablen abgerufen werden.


   # Given a run submitted with dataset input like this:
   dataset_input = dataset.as_hdfs()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The hdfs path can be retrieved from argument values
   import sys
   hdfs_path = sys.argv[1]

   # The hdfs path can also be retrieved from input_datasets of the run context.
   import os
   hdfs_path = os.environ['input_<hash>']
as_hdfs()

Hinweise

Wenn das Dataset aus dem Pfad einer einzelnen Datei erstellt wird, ist der HDFS-Pfad der Pfad der einzelnen Datei. Andernfalls ist der HDFS-Pfad der Pfad des einschließenden Ordners für alle eingebundenen Dateien.

as_mount

Erstellen Sie eine DatasetConsumptionConfig-Datei mit eingestelltem Einbindemodus.

Bei der übermittelten Ausführung werden Dateien in den Datasets in den lokalen Pfad auf dem Computeziel eingebunden. Der Bereitstellungspunkt kann aus Argumentwerten und dem Feld input_datasets des Ausführungskontexts abgerufen werden. Wir generieren automatisch einen Eingabenamen. Wenn Sie einen benutzerdefinierten Eingabenamen angeben möchten, rufen Sie die Methode as_named_input auf.


   # Given a run submitted with dataset input like this:
   dataset_input = dataset.as_mount()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The mount point can be retrieved from argument values
   import sys
   mount_point = sys.argv[1]

   # The mount point can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   mount_point = Run.get_context().input_datasets['input_1']
as_mount(path_on_compute=None)

Parameter

path_on_compute
str
Standardwert: None

Der Zielpfad auf dem Compute, unter dem die Daten zur Verfügung gestellt werden.

Hinweise

Wenn das Dataset aus dem Pfad einer einzelnen Datei erstellt wird, ist der Bereitstellungspunkt der Pfad der einzelnen eingebundenen Datei. Andernfalls ist der Bereitstellungspunkt der Pfad des einschließenden Ordners für alle bereitgestellten Dateien.

Wenn path_on_compute mit einem / beginnt, wird er als absoluter Pfad behandelt. Wenn er nicht mit einem / beginnt, wird er als relativer Pfad relativ zum Arbeitsverzeichnis behandelt. Wenn Sie einen absoluten Pfad angegeben haben, stellen Sie sicher, dass der Auftrag über die Berechtigung zum Schreiben in dieses Verzeichnis verfügt.

download

Laden Sie Dateistreams herunter, die vom Dataset als lokale Dateien definiert sind.

download(target_path=None, overwrite=False, ignore_not_found=False)

Parameter

target_path
str
Erforderlich

Das lokale Verzeichnis, in das die Dateien heruntergeladen werden. Bei „None“ (Keine) werden die Daten in ein temporäres Verzeichnis heruntergeladen.

overwrite
bool
Erforderlich

Gibt an, ob vorhandene Dateien überschrieben werden. Die Standardeinstellung lautet „false“. Vorhandene Dateien werden überschrieben, wenn „overwrite“ auf „True“ festgelegt ist. Andernfalls wird eine Ausnahme ausgelöst.

ignore_not_found
bool
Erforderlich

Gibt an, ob der Download fehlschlägt, wenn einige Dateien, auf die vom Dataset verwiesen wird, nicht gefunden werden. Die Standardeinstellung lautet „false“. Der Download gilt als fehlgeschlagen, wenn ein Dateidownload aus irgendeinem Grund fehlschlägt, wenn ignore_not_found auf False festgelegt ist. Andernfalls wird eine Warnung für nicht gefundene Fehler protokolliert, und der Download ist erfolgreich, solange keine anderen Fehlertypen gefunden werden.

Gibt zurück

Gibt ein Array von Dateipfaden für jede heruntergeladene Datei zurück.

Rückgabetyp

Hinweise

Wenn target_path mit einem / beginnt, wird er als absoluter Pfad behandelt. Wenn er nicht mit einem / beginnt, wird er als relativer Pfad relativ zum aktuellen Arbeitsverzeichnis behandelt.

file_metadata

Hinweis

Dies ist eine experimentelle Methode, die sich jederzeit ändern kann. Unter https://aka.ms/azuremlexperimental finden Sie weitere Informationen.

Abrufen des Dateimetadatenausdrucks durch Angabe des Metadatenspaltennamens.

Unterstützte Dateimetadatenspalten sind „Size“, „LastModifiedTime“, „CreationTime“, „Extension“ und „CanSeek“.

file_metadata(col)

Parameter

col
str
Erforderlich

Name der Spalte

Gibt zurück

Dient zum Zurückgeben eines Ausdrucks, der den Wert in der angegebenen Spalte abruft.

Rückgabetyp

<xref:azureml.dataprep.api.expression.RecordFieldExpression>

filter

Hinweis

Dies ist eine experimentelle Methode, die sich jederzeit ändern kann. Unter https://aka.ms/azuremlexperimental finden Sie weitere Informationen.

Filtern Sie die Daten, und lassen Sie nur die Datensätze zurück, die mit dem angegebenen Ausdruck übereinstimmen.

filter(expression)

Parameter

expression
<xref:azureml.dataprep.api.expression.Expression>
Erforderlich

Der auszuwertende Ausdruck.

Gibt zurück

Das geänderte Dataset (nicht registriert).

Rückgabetyp

Hinweise

Ausdrücke werden gestartet, indem das Dataset mit dem Namen einer Spalte indiziert wird. Sie unterstützen eine Vielzahl von Funktionen und Operatoren und können mithilfe von logischen Operatoren kombiniert werden. Der resultierende Ausdruck wird verzögert für jeden Datensatz ausgewertet, wenn ein Datenpullvorgang erfolgt, und nicht an der Stelle, an der er definiert ist.


   (dataset.file_metadata('Size') > 10000) & (dataset.file_metadata('CanSeek') == True)
   dataset.file_metadata('Extension').starts_with('j')

hydrate

Hinweis

Dies ist eine experimentelle Methode, die sich jederzeit ändern kann. Unter https://aka.ms/azuremlexperimental finden Sie weitere Informationen.

Befüllen Sie das Dataset in die angeforderten Replikate, die in datacache_store angegeben sind.

hydrate(datacache_store, replica_count=None)

Parameter

datacache_store
DatacacheStore
Erforderlich

Der Datencachespeicher, der zum Befüllen verwendet werden soll.

replica_count
<xref:Int>, <xref:optional>
Erforderlich

Anzahl der zu befüllenden Replikate.

Gibt zurück

Das Konfigurationsobjekt, das beschreibt, wie der Datacache während der Ausführung materialisiert werden soll.

Rückgabetyp

mount

Erstellen Sie einen Kontext-Verwalter zum Einbinden von Dateistreams, die vom Dataset als lokale Dateien definiert werden.

mount(mount_point=None, **kwargs)

Parameter

mount_point
str
Erforderlich

Das lokale Verzeichnis, in das die Dateien eingebunden werden. Bei „None“ werden die Daten in ein temporäres Verzeichnis eingebunden, das Sie durch Aufrufen der Instanzmethode MountContext.mount_point ermitteln können.

Gibt zurück

Gibt einen Kontext-Verwalter zum Verwalten des Lebenszyklus des Einbindens zurück.

Rückgabetyp

<xref:<xref:MountContext: the context manager. Upon entering the context manager>, <xref:the dataflow will bemounted to the mount_point. Upon exit>, <xref:it will remove the mount point and clean up the daemon processused to mount the dataflow.>>

Hinweise

Ein Kontext-Manager zum Verwalten des Lebenszyklus der Einbindung wird zurückgegeben. Zum Einbinden müssen Sie den Kontext-Verwalter eingeben und die Bereitstellung vom Kontext-Verwalter beenden.

Das Einbinden wird nur unter UNIX oder UNIX-ähnlichen Betriebssystemen unterstützt, auf denen das native Paket „libfuse“ installiert ist. Wenn Sie in einem Docker-Container ausführen, muss der Docker-Container mit dem Flag –privileged oder mit –cap-add SYS_ADMIN –device /dev/fuse gestartet werden.


   datastore = Datastore.get(workspace, 'workspaceblobstore')
   dataset = Dataset.File.from_files((datastore, 'animals/dog/year-*/*.jpg'))

   with dataset.mount() as mount_context:
       # list top level mounted files and folders in the dataset
       os.listdir(mount_context.mount_point)

   # You can also use the start and stop methods
   mount_context = dataset.mount()
   mount_context.start()  # this will mount the file streams
   mount_context.stop()  # this will unmount the file streams

Wenn target_path mit einem / beginnt, wird er als absoluter Pfad behandelt. Wenn er nicht mit einem / beginnt, wird er als relativer Pfad relativ zum aktuellen Arbeitsverzeichnis behandelt.

random_split

Teilen Sie Dateistreams im Dataset nach dem Zufallsprinzip und ungefähr nach dem angegebenen Prozentsatz in zwei Teile auf.

Das erste zurückgegebene Dataset enthält ungefähr percentage der Gesamtzahl der Dateiverweise, und das zweite Dataset enthält die verbleibenden Dateiverweise.

random_split(percentage, seed=None)

Parameter

percentage
float
Erforderlich

Der ungefähre Prozentsatz, nach dem das Dataset aufgeteilt werden soll. Es muss eine Zahl zwischen 0,0 und 1,0 sein.

seed
int
Erforderlich

Ein optionaler Seed, der für den Zufallsgenerator verwendet werden soll.

Gibt zurück

Gibt ein Tupel neuer FileDataset-Objekte zurück, die die beiden Datasets nach der Teilung darstellen.

Rückgabetyp

skip

Überspringen Sie Dateistreams am Anfang des Datasets um die angegebene Anzahl.

skip(count)

Parameter

count
int
Erforderlich

Die Anzahl der zu überspringenden Dateistreams.

Gibt zurück

Gibt ein neues FileDataset-Objekt zurück, das ein Dataset mit übersprungenen Dateistreams darstellt.

Rückgabetyp

take

Nehmen Sie eine Stichprobe der Dateistreams vom Anfang des Datasets nach der angegebenen Anzahl.

take(count)

Parameter

count
int
Erforderlich

Die Anzahl der zu übernehmenden Dateistreams.

Gibt zurück

Gibt ein neues FileDataset-Objekt zurück, das das Dataset mit der entnommenen Stichprobe darstellt.

Rückgabetyp

take_sample

Nehmen Sie eine zufällige Stichprobe von Dateistreams im Dataset, ungefähr nach der angegebenen Wahrscheinlichkeit.

take_sample(probability, seed=None)

Parameter

probability
float
Erforderlich

Die Wahrscheinlichkeit, dass ein Dateistream in die Stichprobe aufgenommen wird.

seed
int
Erforderlich

Ein optionaler Seed, der für den Zufallsgenerator verwendet werden soll.

Gibt zurück

Gibt ein neues FileDataset-Objekt zurück, das das Dataset mit der entnommenen Stichprobe darstellt.

Rückgabetyp

to_path

Hier finden Sie eine Liste der Dateipfade für jeden Dateistream, der durch das Dataset definiert wird.

to_path()

Gibt zurück

Gibt ein Array von Dateipfaden zurück.

Rückgabetyp

Hinweise

Die Dateipfade sind relative Pfade für lokale Dateien, wenn die Dateistreams heruntergeladen oder eingebunden werden.

Ein allgemeines Präfix wird aus den Dateipfaden entfernt, je nach Angabe der Datenquelle zum Erstellen des Datasets. Beispiel:


   datastore = Datastore.get(workspace, 'workspaceblobstore')
   dataset = Dataset.File.from_files((datastore, 'animals/dog/year-*/*.jpg'))
   print(dataset.to_path())

   # ['year-2018/1.jpg'
   #  'year-2018/2.jpg'
   #  'year-2019/1.jpg']

   dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/green-small/*.csv')

   print(dataset.to_path())
   # ['/green_tripdata_2013-08.csv']