AbstractDataset Klasse
Basisklasse von Datasets in Azure Machine Learning
Verweisen Sie auf die Klassen TabularDatasetFactory und FileDatasetFactory, um Instanzen des Datasets zu erstellen.
Klasse AbstractDataset-Konstruktor.
Dieser Konstruktor sollte nicht direkt aufgerufen werden. Das Dataset soll mithilfe von TabularDatasetFactory Klasse und FileDatasetFactory Klasse erstellt werden.
- Vererbung
-
builtins.objectAbstractDataset
Konstruktor
AbstractDataset()
Methoden
add_tags |
Fügt dem Tagwörterbuch dieses Datasets Schlüssel-Wert-Paare hinzu. |
as_named_input |
Geben Sie einen Namen für dieses Dataset an, der zum Abrufen des materialisierten Datasets bei der Ausführung verwendet wird. |
get_all |
Ruft alle registrierten Datasets im Arbeitsbereich ab. |
get_by_id |
Ruft ein Dataset ab, das im Arbeitsbereich gespeichert wird. |
get_by_name |
Ruft ein registriertes Dataset über den Registrierungsnamen aus dem Arbeitsbereich ab. |
get_partition_key_values |
Eindeutige Schlüsselwerte für partition_keys zurückgeben. Überprüfen ob partition_keys ob partition_keys eine gültige Teilmenge des vollständigen Sets von Partitionsschlüsseln ist, eindeutige Schlüsselwerte von partition_keys zurückgeben. Standardmäßig werden die eindeutigen Schlüsselkombinationen zurückgegeben, indem der vollständige Satz von Partitionsschlüsseln dieses Datasets genommen wird, wenn partition_keys „None“ ist.
|
register |
Registriert das Dataset im angegebenen Arbeitsbereich. |
remove_tags |
Entfernt die angegebenen Schlüssel aus dem Tagwörterbuch dieses Datasets. |
unregister_all_versions |
Hebt die Registrierung aller Versionen unter dem Registrierungsnamen dieses Datasets im Arbeitsbereich auf. |
update |
Führt ein direktes Update des Datasets durch. |
add_tags
Fügt dem Tagwörterbuch dieses Datasets Schlüssel-Wert-Paare hinzu.
add_tags(tags=None)
Parameter
Gibt zurück
Das aktualisierte Datasetobjekt.
Rückgabetyp
as_named_input
Geben Sie einen Namen für dieses Dataset an, der zum Abrufen des materialisierten Datasets bei der Ausführung verwendet wird.
as_named_input(name)
Parameter
Gibt zurück
Das Konfigurationsobjekt, das beschreibt, wie das Dataset während der Ausführung materialisiert werden soll.
Rückgabetyp
Hinweise
Der hier aufgeführte Name ist nur innerhalb einer Azure Machine Learning-Ausführung anwendbar. Der Name darf nur alphanumerische Zeichen und Unterstriche enthalten, damit er als Umgebungsvariable verfügbar gemacht werden kann. Sie können das Dataset anhand dieses Namens im Kontext einer Ausführung abrufen, indem Sie zwei Ansätze verwenden:
Umgebungsvariable:
Der Name ist der Name der Umgebungsvariablen, und das materialisierte Dataset wird als Wert der Umgebungsvariablen verfügbar gemacht. Wenn das Dataset heruntergeladen oder eingebunden wird, ist der Wert der heruntergeladene/eingebundene Pfad. Beispiel:
# in your job submission notebook/script:
dataset.as_named_input('foo').as_download('/tmp/dataset')
# in the script that will be executed in the run
import os
path = os.environ['foo'] # path will be /tmp/dataset
Hinweis
Wenn das Dataset auf den direkten Modus festgelegt ist, ist der Wert die Dataset-ID. Sie können anschließend folgende Aktionen durchführen:
Datasetobjekts mithilfe von Dataset.get_by_id(os.environ['foo']) abrufen
Run.input_datasets:
Hierbei handelt es sich um ein Wörterbuch, in dem der Schlüssel der Datasetname ist, den Sie in dieser Methode angegeben haben, und der Wert das materialisierte Dataset ist. Für heruntergeladene und eingebundene Datasets ist der Wert der heruntergeladene/eingebundene Pfad. Im direkten Modus ist der Wert dasselbe Datasetobjekt, das Sie in Ihrem Auftragsübermittlungsskript angegeben haben.
# in your job submission notebook/script:
dataset.as_named_input('foo') # direct mode
# in the script that will be executed in the run
run = Run.get_context()
run.input_datasets['foo'] # this returns the dataset object from above.
get_all
Ruft alle registrierten Datasets im Arbeitsbereich ab.
static get_all(workspace)
Parameter
- workspace
- Workspace
Der vorhandene AzureML-Arbeitsbereich, in dem die Datasets registriert wurden.
Gibt zurück
Ein Wörterbuch von TabularDataset- und FileDataset-Objekten. Als Schlüssel wird ihr Registrierungsname verwendet.
Rückgabetyp
get_by_id
Ruft ein Dataset ab, das im Arbeitsbereich gespeichert wird.
static get_by_id(workspace, id, **kwargs)
Parameter
- workspace
- Workspace
Der vorhandene AzureML-Arbeitsbereich, in dem das Dataset gespeichert wurde.
Gibt zurück
Das Datasetobjekt. Wenn das Dataset registriert wurde, werden auch der Registrierungsname und die Version zurückgegeben.
Rückgabetyp
get_by_name
Ruft ein registriertes Dataset über den Registrierungsnamen aus dem Arbeitsbereich ab.
static get_by_name(workspace, name, version='latest', **kwargs)
Parameter
- workspace
- Workspace
Der vorhandene AzureML-Arbeitsbereich, in dem das Dataset registriert wurde.
Gibt zurück
Das registrierte Datasetobjekt.
Rückgabetyp
get_partition_key_values
Eindeutige Schlüsselwerte für partition_keys zurückgeben.
Überprüfen ob partition_keys ob partition_keys eine gültige Teilmenge des vollständigen Sets von Partitionsschlüsseln ist, eindeutige Schlüsselwerte von partition_keys zurückgeben. Standardmäßig werden die eindeutigen Schlüsselkombinationen zurückgegeben, indem der vollständige Satz von Partitionsschlüsseln dieses Datasets genommen wird, wenn partition_keys „None“ ist.
# get all partition key value pairs
partitions = ds.get_partition_key_values()
# Return [{'country': 'US', 'state': 'WA', 'partition_date': datetime('2020-1-1')}]
partitions = ds.get_partition_key_values(['country'])
# Return [{'country': 'US'}]
get_partition_key_values(partition_keys=None)
Parameter
register
Registriert das Dataset im angegebenen Arbeitsbereich.
register(workspace, name, description=None, tags=None, create_new_version=False)
Parameter
Wörterbuch mit Schlüsselwerttags für das Dataset. Der Standardwert ist „None“.
- create_new_version
- bool
Boolescher Wert für die Registrierung des Datasets als neue Version unter dem angegebenen Namen.
Gibt zurück
Das registrierte Datasetobjekt.
Rückgabetyp
remove_tags
Entfernt die angegebenen Schlüssel aus dem Tagwörterbuch dieses Datasets.
remove_tags(tags=None)
Parameter
Gibt zurück
Das aktualisierte Datasetobjekt.
Rückgabetyp
unregister_all_versions
Hebt die Registrierung aller Versionen unter dem Registrierungsnamen dieses Datasets im Arbeitsbereich auf.
unregister_all_versions()
Hinweise
Durch den Vorgang werden keine Quelldaten geändert.
update
Führt ein direktes Update des Datasets durch.
update(description=None, tags=None)
Parameter
- description
- str
Die neue Beschreibung, die für das Dataset verwendet werden soll. Die vorhandene Beschreibung wird durch diese Beschreibung ersetzt. Standardmäßig wird die vorhandene Beschreibung verwendet. Zum Löschen der Beschreibung geben Sie eine leere Zeichenfolge ein.
Ein Wörterbuch mit Tags, mit denen das Dataset aktualisiert werden soll. Diese Tags ersetzen vorhandene Tags für das Dataset. Standardmäßig werden die vorhandenen Tags verwendet. Zum Löschen der Tags geben Sie ein leeres Wörterbuch ein.
Gibt zurück
Das aktualisierte Datasetobjekt.
Rückgabetyp
Attribute
data_changed_time
Gibt den Zeitpunkt der Änderung der Quelldaten zurück.
Gibt zurück
Der Zeitpunkt, zu dem die letzte Änderung der Quelldaten erfolgt ist.
Rückgabetyp
Hinweise
Der Zeitpunkt von Datenänderungen ist für dateibasierte Datenquellen verfügbar. Wenn die Datenquelle nicht für die Überprüfung des Zeitpunkts von Änderungen unterstützt wird, wird „None“ zurückgegeben.
description
id
Gibt den Bezeichner des Datasets zurück.
Gibt zurück
Dataset-ID. Wenn das Dataset nicht in einem Arbeitsbereich gespeichert wird, lautet die ID „None“.
Rückgabetyp
name
partition_keys
tags
version
Feedback
https://aka.ms/ContentUserFeedback.
Bald verfügbar: Im Laufe des Jahres 2024 werden wir GitHub-Issues stufenweise als Feedbackmechanismus für Inhalte abbauen und durch ein neues Feedbacksystem ersetzen. Weitere Informationen finden Sie unterFeedback senden und anzeigen für