AbstractDataset Klasse

Basisklasse von Datasets in Azure Machine Learning.

Verweisen Sie auf TabularDatasetFactory Klasse und FileDatasetFactory Klasse, um Instanzen des Datasets zu erstellen.

Class AbstractDataset-Konstruktor.

Dieser Konstruktor soll nicht direkt aufgerufen werden. Das Dataset soll mit TabularDatasetFactory Klasse und FileDatasetFactory Klasse erstellt werden.

Konstruktor

AbstractDataset()

Methoden

add_tags	Fügen Sie schlüsselwertpaare zum Kategorienverzeichnis dieses Datasets hinzu.
as_named_input	Geben Sie einen Namen für dieses Dataset an, das zum Abrufen des materialisierten Datasets in der Ausführung verwendet wird.
get_all	Rufen Sie alle registrierten Datasets im Arbeitsbereich ab.
get_by_id	Ruft ein Dataset ab, das im Arbeitsbereich gespeichert wird.
get_by_name	Rufen Sie ein registriertes Dataset aus dem Arbeitsbereich anhand des Registrierungsnamens ab.
get_partition_key_values	Gibt eindeutige Schlüsselwerte von partition_keys zurück. valid if partition_keys is a valid subset of full set of partition keys, return unique key values of partition_keys, default to return the unique key combinations by taking the full set of partition keys of this dataset if partition_keys is None `# get all partition key value pairs partitions = ds.get_partition_key_values() # Return [{'country': 'US', 'state': 'WA', 'partition_date': datetime('2020-1-1')}] partitions = ds.get_partition_key_values(['country']) # Return [{'country': 'US'}]`
register	Registrieren Sie das Dataset für den bereitgestellten Arbeitsbereich.
remove_tags	Entfernen Sie die angegebenen Schlüssel aus dem Kategorienverzeichnis dieses Datasets.
unregister_all_versions	Heben Sie die Registrierung aller Versionen unter dem Registrierungsnamen dieses Datasets aus dem Arbeitsbereich auf.
update	Führen Sie eine direkte Aktualisierung des Datasets durch.

add_tags

Fügen Sie schlüsselwertpaare zum Kategorienverzeichnis dieses Datasets hinzu.

add_tags(tags=None)

Parameter

Name	Beschreibung
tags Erforderlich	dict[str, str] Das Wörterbuch der hinzuzufügenden Tags.

Gibt zurück

Typ	Beschreibung
Union[TabularDataset, FileDataset]	Das aktualisierte Datasetobjekt.

as_named_input

Geben Sie einen Namen für dieses Dataset an, das zum Abrufen des materialisierten Datasets in der Ausführung verwendet wird.

as_named_input(name)

Parameter

Name	Beschreibung
name Erforderlich	str Der Name des Datasets für die Ausführung.

Gibt zurück

Typ	Beschreibung
DatasetConsumptionConfig	Das Konfigurationsobjekt, das beschreibt, wie das Dataset im Lauf materialisiert werden soll.

Hinweise

Der Name hier gilt nur innerhalb einer Azure Machine Learning-Ausführung. Der Name darf nur alphanumerische und unterstriche Zeichen enthalten, damit er als Umgebungsvariable verfügbar gemacht werden kann. Sie können diesen Namen verwenden, um das Dataset im Kontext einer Ausführung mithilfe von zwei Ansätzen abzurufen:

Umgebungsvariable:

Der Name ist der Name der Umgebungsvariable, und das materialisierte Dataset wird als Wert der Umgebungsvariable verfügbar gemacht. Wenn das Dataset heruntergeladen oder bereitgestellt wird, wird der Wert der heruntergeladene/bereitgestellte Pfad. Beispiel:


   # in your job submission notebook/script:
   dataset.as_named_input('foo').as_download('/tmp/dataset')

   # in the script that will be executed in the run
   import os
   path = os.environ['foo'] # path will be /tmp/dataset

Hinweis

Wenn das Dataset auf den direkten Modus festgelegt ist, ist der Wert die Dataset-ID. Dann können Sie

Abrufen des Datasetobjekts durch ausführen Dataset.get_by_id(os.environ['foo'])

Run.input_datasets:

Dies ist ein Wörterbuch, in dem der Schlüssel der Datensatzname ist, den Sie in dieser Methode angegeben haben, und der Wert ist das materialisierte Dataset. Für heruntergeladene und bereitgestellte Datasets ist der Wert der heruntergeladene/bereitgestellte Pfad. Für den direkten Modus ist der Wert dasselbe Datasetobjekt, das Sie in Ihrem Auftragsübermittlungsskript angegeben haben.


   # in your job submission notebook/script:
   dataset.as_named_input('foo') # direct mode

   # in the script that will be executed in the run
   run = Run.get_context()
   run.input_datasets['foo'] # this returns the dataset object from above.

get_all

Rufen Sie alle registrierten Datasets im Arbeitsbereich ab.

static get_all(workspace)

Parameter

Name	Beschreibung
workspace Erforderlich	Workspace Der vorhandene AzureML-Arbeitsbereich, in dem die Datasets registriert wurden.

Gibt zurück

Typ	Beschreibung
dict[str, Union[TabularDataset, FileDataset]]	Ein Wörterbuch von TabularDataset- und FileDataset-Objekten, die durch ihren Registrierungsnamen schlüsselt.

get_by_id

Ruft ein Dataset ab, das im Arbeitsbereich gespeichert wird.

static get_by_id(workspace, id, **kwargs)

Parameter

Name	Beschreibung
workspace Erforderlich	Workspace Der vorhandene AzureML-Arbeitsbereich, in dem das Dataset gespeichert wird.
id Erforderlich	str Die ID des Datasets.

Gibt zurück

Typ	Beschreibung
Union[TabularDataset, FileDataset]	Das Datasetobjekt. Wenn das Dataset registriert ist, wird auch der Registrierungsname und die Version zurückgegeben.

get_by_name

Rufen Sie ein registriertes Dataset aus dem Arbeitsbereich anhand des Registrierungsnamens ab.

static get_by_name(workspace, name, version='latest', **kwargs)

Parameter

Name	Beschreibung
workspace Erforderlich	Workspace Der vorhandene AzureML-Arbeitsbereich, in dem das Dataset registriert wurde.
name Erforderlich	str Der Registrierungsname.
version Erforderlich	int Die Registrierungsversion. Der Standardwert ist "latest".

Gibt zurück

Typ	Beschreibung
Union[TabularDataset, FileDataset]	Das registrierte Datasetobjekt.

get_partition_key_values

Gibt eindeutige Schlüsselwerte von partition_keys zurück.

valid if partition_keys is a valid subset of full set of partition keys, return unique key values of partition_keys, default to return the unique key combinations by taking the full set of partition keys of this dataset if partition_keys is None


   # get all partition key value pairs
   partitions = ds.get_partition_key_values()
   # Return [{'country': 'US', 'state': 'WA', 'partition_date': datetime('2020-1-1')}]

   partitions = ds.get_partition_key_values(['country'])
   # Return [{'country': 'US'}]

get_partition_key_values(partition_keys=None)

Parameter

Name	Beschreibung
partition_keys Erforderlich	list[str] Partitionsschlüssel

register

Registrieren Sie das Dataset für den bereitgestellten Arbeitsbereich.

register(workspace, name, description=None, tags=None, create_new_version=False)

Parameter

Name	Beschreibung
workspace Erforderlich	Workspace Der Arbeitsbereich zum Registrieren des Datasets.
name Erforderlich	str Der Name, mit dem das Dataset registriert werden soll.
description Erforderlich	str Eine Textbeschreibung des Datasets. Der Standardwert ist „Keine“.
tags Erforderlich	dict[str, str] Wörterbuch der Schlüsselwerttags, die dem Dataset zugewiesen werden sollen. Der Standardwert ist „Keine“.
create_new_version Erforderlich	bool Boolescher Wert zum Registrieren des Datasets als neue Version unter dem angegebenen Namen.

Gibt zurück

Typ	Beschreibung
Union[TabularDataset, FileDataset]	Das registrierte Datasetobjekt.

remove_tags

Entfernen Sie die angegebenen Schlüssel aus dem Kategorienverzeichnis dieses Datasets.

remove_tags(tags=None)

Parameter

Name	Beschreibung
tags Erforderlich	list[str] Die Liste der zu entfernenden Schlüssel.

Gibt zurück

Typ	Beschreibung
Union[TabularDataset, FileDataset]	Das aktualisierte Datasetobjekt.

unregister_all_versions

Heben Sie die Registrierung aller Versionen unter dem Registrierungsnamen dieses Datasets aus dem Arbeitsbereich auf.

unregister_all_versions()

Hinweise

Der Vorgang ändert keine Quelldaten.

update

Führen Sie eine direkte Aktualisierung des Datasets durch.

update(description=None, tags=None)

Parameter

Name	Beschreibung
description Erforderlich	str Die neue Beschreibung, die für das Dataset verwendet werden soll. Diese Beschreibung ersetzt die vorhandene Beschreibung. Standardmäßig wird eine vorhandene Beschreibung verwendet. Um eine Beschreibung zu löschen, geben Sie eine leere Zeichenfolge ein.
tags Erforderlich	dict[str, str] Ein Wörterbuch mit Tags, mit dem das Dataset aktualisiert werden soll. Diese Tags ersetzen vorhandene Tags für das Dataset. Standardmäßig werden vorhandene Tags verwendet. Um Tags zu löschen, geben Sie ein leeres Wörterbuch ein.

Gibt zurück

Typ	Beschreibung
Union[TabularDataset, FileDataset]	Das aktualisierte Datasetobjekt.

Attribute

data_changed_time

Gibt die Geänderte Uhrzeit der Quelldaten zurück.

Gibt zurück

Typ	Beschreibung
datetime	Der Zeitpunkt, zu dem die letzte Änderung an Quelldaten erfolgte.

Hinweise

Datenänderungszeit steht für dateibasierte Datenquelle zur Verfügung. Keine wird zurückgegeben, wenn die Datenquelle nicht unterstützt wird, um zu überprüfen, wann Änderungen vorgenommen wurden.

description

Geben Sie die Registrierungsbeschreibung zurück.

Gibt zurück

Typ	Beschreibung
str	Beschreibung des Datasets.

id

Gibt den Bezeichner des Datasets zurück.

Gibt zurück

Typ	Beschreibung
str	Dataset-ID. Wenn das Dataset nicht in einem Arbeitsbereich gespeichert wird, lautet die ID "Keine".

name

Geben Sie den Registrierungsnamen zurück.

Gibt zurück

Typ	Beschreibung
str	Datasetname.

partition_keys

Geben Sie die Partitionsschlüssel zurück.

Gibt zurück

Typ	Beschreibung
list[str]	die Partitionsschlüssel

Typ	Beschreibung
str	Datasettags.

version

Gibt die Registrierungsversion zurück.

Gibt zurück

Typ	Beschreibung
int	Datasetversion.

Feedback

War diese Seite hilfreich?

Freigeben über

AbstractDataset Klasse

Konstruktor

Methoden

add_tags

Parameter

Gibt zurück

as_named_input

Parameter

Gibt zurück

Hinweise

get_all

Parameter

Gibt zurück

get_by_id

Parameter

Gibt zurück

get_by_name

Parameter

Gibt zurück

get_partition_key_values

Parameter

register

Parameter

Gibt zurück

remove_tags

Parameter

Gibt zurück

unregister_all_versions

Hinweise

update

Parameter

Gibt zurück

Attribute

data_changed_time

Gibt zurück

Hinweise

description

Gibt zurück

id

Gibt zurück

name

Gibt zurück

partition_keys

Gibt zurück

tags

Gibt zurück

version

Gibt zurück

Feedback