DatasetDefinition Klasse

Definiert eine Reihe von Schritten, die angeben, wie Daten in einem Dataset gelesen und transformiert werden.

Hinweis

Diese Klasse ist veraltet. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

Ein in einem Azure Machine Learning-Arbeitsbereich registriertes Dataset kann über mehrere Definitionen verfügen, die jeweils durch Aufrufen von update_definition erstellt werden. Jede Definition besitzt einen eindeutigen Bezeichner. Die aktuelle Definition ist die zuletzt erstellte.

Für nicht registrierte Datasets gibt es nur eine Definition.

Datasetdefinitionen unterstützen alle Transformationen, die für die <xref:azureml.dataprep.Dataflow>-Klasse aufgeführt sind: siehe http://aka.ms/azureml/howto/transformdata. Weitere Informationen zu Datasetdefinitionen finden Sie unter https://aka.ms/azureml/howto/versiondata.

Initialisieren Sie das Datasetdefinitionsobjekt.

Vererbung
azureml.dataprep.api.engineless_dataflow.EnginelessDataflow
DatasetDefinition

Konstruktor

DatasetDefinition(workspace=None, dataset_id=None, version_id=None, dataflow=None, dataflow_json=None, notes=None, etag=None, created_time=None, modified_time=None, state=None, deprecated_by_dataset_id=None, deprecated_by_definition_version=None, data_path=None, dataset=None, file_type='Unknown')

Parameter

workspace
str
Erforderlich

Der Arbeitsbereich, in dem das Dataset registriert ist.

dataset_id
str
Erforderlich

Der Datasetbezeichner.

version_id
str
Erforderlich

Die Definitionsversion.

dataflow
str
Erforderlich

Das Dataflow-Objekt.

dataflow_json
Erforderlich

Der Dataflow-JSON-Code.

notes
str
Erforderlich

Optionale Informationen zur Definition.

etag
str
Erforderlich

Etag.

created_time
datetime
Erforderlich

Die Erstellungszeit der Definition.

modified_time
datetime
Erforderlich

Der Zeitpunkt der letzten Änderung der Definition.

deprecated_by_dataset_id
str
Erforderlich

Die ID des Datasets, das diese Definition als veraltet bezeichnet.

deprecated_by_definition_version
str
Erforderlich

Die Version der Definition, die diese Definition als veraltet darstellt.

data_path
DataPath
Erforderlich

Der Datenpfad.

dataset
Dataset
Erforderlich

Das übergeordnete Dataset-Objekt.

Methoden

archive

Archivieren Sie die Datasetdefinition.

create_snapshot

Erstellt eine Momentaufnahme des registrierten Datasets.

deprecate

Kennzeichnet das Dataset als veraltet und versieht es mit einem Zeiger auf das neue Dataset.

reactivate

Aktivieren Sie die Datasetdefinition erneut.

Wird mit Datasetdefinitionen verwendet, die als veraltet gekennzeichnet oder archiviert wurden.

to_pandas_dataframe

Erstellen Sie einen Pandas-Datenrahmen durch Ausführen der Transformationspipeline, die durch diese Datasetdefinition festgelegt wird.

to_spark_dataframe

Erstellen Sie einen Spark-DataFrame, der die durch diesen Dataflow festgelegte Transformationspipeline ausführen kann.

archive

Archivieren Sie die Datasetdefinition.

archive()

Gibt zurück

Keine.

Rückgabetyp

Hinweise

Nach der Archivierung führt jeder Versuch, das Dataset abzurufen, zu einem Fehler. Verwenden Sie bei einer versehentlichen Aktivierung reactivate, um es zu aktivieren.

create_snapshot

Erstellt eine Momentaufnahme des registrierten Datasets.

create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)

Parameter

snapshot_name
str
Erforderlich

Der Name der Momentaufnahme. Momentaufnahmenamen sollten innerhalb eines Datasets eindeutig sein.

compute_target
ComputeTarget oder str
Standardwert: None

Das Computeziel zum Erstellen des Momentaufnahmeprofils. Wenn keine Angabe erfolgt, wird das lokale Computeziel verwendet.

create_data_snapshot
bool
Standardwert: False

TRUE gibt an, dass eine materialisierte Kopie der Daten erstellt wird.

target_datastore
Union[AbstractAzureStorageDatastore, str]
Standardwert: None

Der Zieldatenspeicher, in dem die Momentaufnahme gespeichert werden soll. Wenn keine Angabe erfolgt, wird die Momentaufnahme im Standardspeicher des Arbeitsbereichs erstellt.

Gibt zurück

Ein DatasetSnapshot-Objekt.

Rückgabetyp

Hinweise

Momentaufnahmen erfassen zusammenfassende Statistiken der zugrunde liegenden Daten zu einem bestimmten Zeitpunkt und eine optionale Kopie der Daten selbst. Weitere Informationen zum Erstellen von Momentaufnahmen finden Sie unter https://aka.ms/azureml/howto/createsnapshots.

deprecate

Kennzeichnet das Dataset als veraltet und versieht es mit einem Zeiger auf das neue Dataset.

deprecate(deprecate_by_dataset_id, deprecated_by_definition_version=None)

Parameter

deprecate_by_dataset_id
uuid
Erforderlich

Die Dataset-ID, die für das Kennzeichnen des aktuellen Datasets als veraltet verwendet wird.

deprecated_by_definition_version
str
Standardwert: None

Die Datasetdefinition, die für das Kennzeichnen der aktuellen Datasetdefinition als veraltet verwendet wird.

Gibt zurück

Keine.

Rückgabetyp

Hinweise

Veraltete Datasetdefinitionen führen zu Protokollwarnungen, wenn sie verwendet werden. Wenn Sie eine Datasetdefinition vollständig von der Verwendung ausschließen möchten, archivieren Sie sie.

Wenn eine Datasetdefinition versehentlich als veraltet gekennzeichnet wurde, verwenden Sie reactivate, um sie zu aktivieren.

reactivate

Aktivieren Sie die Datasetdefinition erneut.

Wird mit Datasetdefinitionen verwendet, die als veraltet gekennzeichnet oder archiviert wurden.

reactivate()

Gibt zurück

Keine.

Rückgabetyp

to_pandas_dataframe

Erstellen Sie einen Pandas-Datenrahmen durch Ausführen der Transformationspipeline, die durch diese Datasetdefinition festgelegt wird.

to_pandas_dataframe()

Gibt zurück

Ein Pandas-Datenrahmen.

Rückgabetyp

Hinweise

Gibt einen vollständig im Arbeitsspeicher materialisierten Pandas-Datenrahmen zurück.

to_spark_dataframe

Erstellen Sie einen Spark-DataFrame, der die durch diesen Dataflow festgelegte Transformationspipeline ausführen kann.

to_spark_dataframe()

Gibt zurück

Ein Spark-Datenrahmen.

Rückgabetyp

Hinweise

Der zurückgegebene Spark-Datenrahmen ist nur ein Ausführungsplan, der keine tatsächlichen Daten enthält, da Spark-Datenrahmen verzögert ausgewertet werden.