AbstractDataset Klasse
Basisklasse von Datasets in Azure Machine Learning.
Verweisen Sie auf TabularDatasetFactory Klasse und FileDatasetFactory Klasse, um Instanzen des Datasets zu erstellen.
Class AbstractDataset-Konstruktor.
Dieser Konstruktor soll nicht direkt aufgerufen werden. Das Dataset soll mit TabularDatasetFactory Klasse und FileDatasetFactory Klasse erstellt werden.
Konstruktor
AbstractDataset()
Methoden
| add_tags |
Fügen Sie schlüsselwertpaare zum Kategorienverzeichnis dieses Datasets hinzu. |
| as_named_input |
Geben Sie einen Namen für dieses Dataset an, das zum Abrufen des materialisierten Datasets in der Ausführung verwendet wird. |
| get_all |
Rufen Sie alle registrierten Datasets im Arbeitsbereich ab. |
| get_by_id |
Ruft ein Dataset ab, das im Arbeitsbereich gespeichert wird. |
| get_by_name |
Rufen Sie ein registriertes Dataset aus dem Arbeitsbereich anhand des Registrierungsnamens ab. |
| get_partition_key_values |
Gibt eindeutige Schlüsselwerte von partition_keys zurück. valid if partition_keys is a valid subset of full set of partition keys, return unique key values of partition_keys, default to return the unique key combinations by taking the full set of partition keys of this dataset if partition_keys is None
|
| register |
Registrieren Sie das Dataset für den bereitgestellten Arbeitsbereich. |
| remove_tags |
Entfernen Sie die angegebenen Schlüssel aus dem Kategorienverzeichnis dieses Datasets. |
| unregister_all_versions |
Heben Sie die Registrierung aller Versionen unter dem Registrierungsnamen dieses Datasets aus dem Arbeitsbereich auf. |
| update |
Führen Sie eine direkte Aktualisierung des Datasets durch. |
add_tags
Fügen Sie schlüsselwertpaare zum Kategorienverzeichnis dieses Datasets hinzu.
add_tags(tags=None)
Parameter
| Name | Beschreibung |
|---|---|
|
tags
Erforderlich
|
Das Wörterbuch der hinzuzufügenden Tags. |
Gibt zurück
| Typ | Beschreibung |
|---|---|
|
Das aktualisierte Datasetobjekt. |
as_named_input
Geben Sie einen Namen für dieses Dataset an, das zum Abrufen des materialisierten Datasets in der Ausführung verwendet wird.
as_named_input(name)
Parameter
| Name | Beschreibung |
|---|---|
|
name
Erforderlich
|
Der Name des Datasets für die Ausführung. |
Gibt zurück
| Typ | Beschreibung |
|---|---|
|
Das Konfigurationsobjekt, das beschreibt, wie das Dataset im Lauf materialisiert werden soll. |
Hinweise
Der Name hier gilt nur innerhalb einer Azure Machine Learning-Ausführung. Der Name darf nur alphanumerische und unterstriche Zeichen enthalten, damit er als Umgebungsvariable verfügbar gemacht werden kann. Sie können diesen Namen verwenden, um das Dataset im Kontext einer Ausführung mithilfe von zwei Ansätzen abzurufen:
Umgebungsvariable:
Der Name ist der Name der Umgebungsvariable, und das materialisierte Dataset wird als Wert der Umgebungsvariable verfügbar gemacht. Wenn das Dataset heruntergeladen oder bereitgestellt wird, wird der Wert der heruntergeladene/bereitgestellte Pfad. Beispiel:
# in your job submission notebook/script:
dataset.as_named_input('foo').as_download('/tmp/dataset')
# in the script that will be executed in the run
import os
path = os.environ['foo'] # path will be /tmp/dataset
Hinweis
Wenn das Dataset auf den direkten Modus festgelegt ist, ist der Wert die Dataset-ID. Dann können Sie
Abrufen des Datasetobjekts durch ausführen Dataset.get_by_id(os.environ['foo'])
Run.input_datasets:
Dies ist ein Wörterbuch, in dem der Schlüssel der Datensatzname ist, den Sie in dieser Methode angegeben haben, und der Wert ist das materialisierte Dataset. Für heruntergeladene und bereitgestellte Datasets ist der Wert der heruntergeladene/bereitgestellte Pfad. Für den direkten Modus ist der Wert dasselbe Datasetobjekt, das Sie in Ihrem Auftragsübermittlungsskript angegeben haben.
# in your job submission notebook/script:
dataset.as_named_input('foo') # direct mode
# in the script that will be executed in the run
run = Run.get_context()
run.input_datasets['foo'] # this returns the dataset object from above.
get_all
Rufen Sie alle registrierten Datasets im Arbeitsbereich ab.
static get_all(workspace)
Parameter
| Name | Beschreibung |
|---|---|
|
workspace
Erforderlich
|
Der vorhandene AzureML-Arbeitsbereich, in dem die Datasets registriert wurden. |
Gibt zurück
| Typ | Beschreibung |
|---|---|
|
Ein Wörterbuch von TabularDataset- und FileDataset-Objekten, die durch ihren Registrierungsnamen schlüsselt. |
get_by_id
Ruft ein Dataset ab, das im Arbeitsbereich gespeichert wird.
static get_by_id(workspace, id, **kwargs)
Parameter
| Name | Beschreibung |
|---|---|
|
workspace
Erforderlich
|
Der vorhandene AzureML-Arbeitsbereich, in dem das Dataset gespeichert wird. |
|
id
Erforderlich
|
Die ID des Datasets. |
Gibt zurück
| Typ | Beschreibung |
|---|---|
|
Das Datasetobjekt. Wenn das Dataset registriert ist, wird auch der Registrierungsname und die Version zurückgegeben. |
get_by_name
Rufen Sie ein registriertes Dataset aus dem Arbeitsbereich anhand des Registrierungsnamens ab.
static get_by_name(workspace, name, version='latest', **kwargs)
Parameter
| Name | Beschreibung |
|---|---|
|
workspace
Erforderlich
|
Der vorhandene AzureML-Arbeitsbereich, in dem das Dataset registriert wurde. |
|
name
Erforderlich
|
Der Registrierungsname. |
|
version
Erforderlich
|
Die Registrierungsversion. Der Standardwert ist "latest". |
Gibt zurück
| Typ | Beschreibung |
|---|---|
|
Das registrierte Datasetobjekt. |
get_partition_key_values
Gibt eindeutige Schlüsselwerte von partition_keys zurück.
valid if partition_keys is a valid subset of full set of partition keys, return unique key values of partition_keys, default to return the unique key combinations by taking the full set of partition keys of this dataset if partition_keys is None
# get all partition key value pairs
partitions = ds.get_partition_key_values()
# Return [{'country': 'US', 'state': 'WA', 'partition_date': datetime('2020-1-1')}]
partitions = ds.get_partition_key_values(['country'])
# Return [{'country': 'US'}]
get_partition_key_values(partition_keys=None)
Parameter
| Name | Beschreibung |
|---|---|
|
partition_keys
Erforderlich
|
Partitionsschlüssel |
register
Registrieren Sie das Dataset für den bereitgestellten Arbeitsbereich.
register(workspace, name, description=None, tags=None, create_new_version=False)
Parameter
| Name | Beschreibung |
|---|---|
|
workspace
Erforderlich
|
Der Arbeitsbereich zum Registrieren des Datasets. |
|
name
Erforderlich
|
Der Name, mit dem das Dataset registriert werden soll. |
|
description
Erforderlich
|
Eine Textbeschreibung des Datasets. Der Standardwert ist „Keine“. |
|
tags
Erforderlich
|
Wörterbuch der Schlüsselwerttags, die dem Dataset zugewiesen werden sollen. Der Standardwert ist „Keine“. |
|
create_new_version
Erforderlich
|
Boolescher Wert zum Registrieren des Datasets als neue Version unter dem angegebenen Namen. |
Gibt zurück
| Typ | Beschreibung |
|---|---|
|
Das registrierte Datasetobjekt. |
remove_tags
Entfernen Sie die angegebenen Schlüssel aus dem Kategorienverzeichnis dieses Datasets.
remove_tags(tags=None)
Parameter
| Name | Beschreibung |
|---|---|
|
tags
Erforderlich
|
Die Liste der zu entfernenden Schlüssel. |
Gibt zurück
| Typ | Beschreibung |
|---|---|
|
Das aktualisierte Datasetobjekt. |
unregister_all_versions
Heben Sie die Registrierung aller Versionen unter dem Registrierungsnamen dieses Datasets aus dem Arbeitsbereich auf.
unregister_all_versions()
Hinweise
Der Vorgang ändert keine Quelldaten.
update
Führen Sie eine direkte Aktualisierung des Datasets durch.
update(description=None, tags=None)
Parameter
| Name | Beschreibung |
|---|---|
|
description
Erforderlich
|
Die neue Beschreibung, die für das Dataset verwendet werden soll. Diese Beschreibung ersetzt die vorhandene Beschreibung. Standardmäßig wird eine vorhandene Beschreibung verwendet. Um eine Beschreibung zu löschen, geben Sie eine leere Zeichenfolge ein. |
|
tags
Erforderlich
|
Ein Wörterbuch mit Tags, mit dem das Dataset aktualisiert werden soll. Diese Tags ersetzen vorhandene Tags für das Dataset. Standardmäßig werden vorhandene Tags verwendet. Um Tags zu löschen, geben Sie ein leeres Wörterbuch ein. |
Gibt zurück
| Typ | Beschreibung |
|---|---|
|
Das aktualisierte Datasetobjekt. |
Attribute
data_changed_time
Gibt die Geänderte Uhrzeit der Quelldaten zurück.
Gibt zurück
| Typ | Beschreibung |
|---|---|
|
Der Zeitpunkt, zu dem die letzte Änderung an Quelldaten erfolgte. |
Hinweise
Datenänderungszeit steht für dateibasierte Datenquelle zur Verfügung. Keine wird zurückgegeben, wenn die Datenquelle nicht unterstützt wird, um zu überprüfen, wann Änderungen vorgenommen wurden.
description
Geben Sie die Registrierungsbeschreibung zurück.
Gibt zurück
| Typ | Beschreibung |
|---|---|
|
Beschreibung des Datasets. |
id
Gibt den Bezeichner des Datasets zurück.
Gibt zurück
| Typ | Beschreibung |
|---|---|
|
Dataset-ID. Wenn das Dataset nicht in einem Arbeitsbereich gespeichert wird, lautet die ID "Keine". |