Freigeben über


DatasetDefinition Klasse

Definiert eine Reihe von Schritten, die angeben, wie Daten in einem Dataset gelesen und transformiert werden.

Hinweis

Diese Klasse ist veraltet. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

Ein in einem Azure Machine Learning-Arbeitsbereich registriertes Dataset kann mehrere Definitionen aufweisen, die jeweils durch Aufrufen update_definitionerstellt werden. Jede Definition weist einen eindeutigen Bezeichner auf. Die aktuelle Definition ist die neueste Erstellte.

Bei nicht registrierten Datasets ist nur eine Definition vorhanden.

Datasetdefinitionen unterstützen alle transformationen, die für die <xref:azureml.dataprep.Dataflow> Klasse aufgeführt sind: siehe http://aka.ms/azureml/howto/transformdata. Weitere Informationen zu Datasetdefinitionen finden Sie unter https://aka.ms/azureml/howto/versiondata.

Initialisieren Sie das Datasetdefinitionsobjekt.

Konstruktor

DatasetDefinition(workspace=None, dataset_id=None, version_id=None, dataflow=None, dataflow_json=None, notes=None, etag=None, created_time=None, modified_time=None, state=None, deprecated_by_dataset_id=None, deprecated_by_definition_version=None, data_path=None, dataset=None, file_type='Unknown')

Parameter

Name Beschreibung
workspace
Erforderlich
str

Der Arbeitsbereich, in dem das Dataset registriert ist.

dataset_id
Erforderlich
str

Der Datasetbezeichner.

version_id
Erforderlich
str

Die Definitionsversion.

dataflow
Erforderlich
str

Das Dataflow-Objekt.

dataflow_json
Erforderlich

Der Dataflow-JSON.

notes
Erforderlich
str

Optionale Informationen zur Definition.

etag
Erforderlich
str

Etag.

created_time
Erforderlich

Die Erstellungszeit der Definition.

modified_time
Erforderlich

Der Zeitpunkt der letzten Änderung der Definition.

deprecated_by_dataset_id
Erforderlich
str

Die ID des Datasets, das diese Definition nicht mehr unterstützt.

deprecated_by_definition_version
Erforderlich
str

Die Version der Definition, die diese Definition nicht mehr unterstützt.

data_path
Erforderlich

Der Datenpfad.

dataset
Erforderlich

Das übergeordnete Dataset-Objekt.

Methoden

archive

Archiv der Datasetdefinition.

create_snapshot

Erstellen Sie eine Momentaufnahme des registrierten Datasets.

deprecate

Veraltetes Dataset mit einem Zeiger auf das neue Dataset.

reactivate

Reaktivieren Sie die Datasetdefinition.

Funktioniert für Datasetdefinitionen, die veraltet oder archiviert wurden.

to_pandas_dataframe

Erstellen Sie einen Pandas-Datenframe, indem Sie die durch diese Datasetdefinition definierte Transformationspipeline ausführen.

to_spark_dataframe

Erstellen Sie einen Spark DataFrame, der die durch diesen Dataflow definierte Transformationspipeline ausführen kann.

archive

Archiv der Datasetdefinition.

archive()

Gibt zurück

Typ Beschreibung

Keiner.

Hinweise

Nach der Archivierung führt jeder Versuch, das Dataset abzurufen, zu einem Fehler. Wenn die Archivierung versehentlich erfolgt, verwenden Sie reactivate sie, um sie zu aktivieren.

create_snapshot

Erstellen Sie eine Momentaufnahme des registrierten Datasets.

create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)

Parameter

Name Beschreibung
snapshot_name
Erforderlich
str

Der Momentaufnahmename. Snapshotnamen sollten innerhalb eines Datasets eindeutig sein.

compute_target

Das Computeziel zum Ausführen der Erstellung des Snapshotprofils. Wenn dieser Wert nicht angegeben wird, wird der lokale Compute verwendet.

Standardwert: None
create_data_snapshot

Wenn True, wird eine materialisierte Kopie der Daten erstellt.

Standardwert: False
target_datastore

Der Zieldatenspeicher, in dem Momentaufnahmen gespeichert werden sollen. Wenn sie weggelassen wird, wird die Momentaufnahme im Standardspeicher des Arbeitsbereichs erstellt.

Standardwert: None

Gibt zurück

Typ Beschreibung

Ein DatasetSnapshot-Objekt.

Hinweise

Momentaufnahmen erfassen Punkt in Zeitzusammenfassungsstatistiken der zugrunde liegenden Daten und eine optionale Kopie der Daten selbst. Weitere Informationen zum Erstellen von Momentaufnahmen finden Sie unter https://aka.ms/azureml/howto/createsnapshots.

deprecate

Veraltetes Dataset mit einem Zeiger auf das neue Dataset.

deprecate(deprecate_by_dataset_id, deprecated_by_definition_version=None)

Parameter

Name Beschreibung
deprecate_by_dataset_id
Erforderlich

Die Dataset-ID, die für die Veraltetkeit des aktuellen Datasets verantwortlich ist.

deprecated_by_definition_version
str

Die Datasetdefinitionsversion, die für die Veraltetkeit der aktuellen Datasetdefinition verantwortlich ist.

Standardwert: None

Gibt zurück

Typ Beschreibung

Keiner.

Hinweise

Veraltete Datasetdefinitionen protokollieren Warnungen, wenn sie verbraucht werden. Um die Nutzung einer Datasetdefinition vollständig zu blockieren, archivieren Sie sie.

Wenn eine Datasetdefinition versehentlich veraltet ist, verwenden Sie reactivate sie, um sie zu aktivieren.

reactivate

Reaktivieren Sie die Datasetdefinition.

Funktioniert für Datasetdefinitionen, die veraltet oder archiviert wurden.

reactivate()

Gibt zurück

Typ Beschreibung

Keiner.

to_pandas_dataframe

Erstellen Sie einen Pandas-Datenframe, indem Sie die durch diese Datasetdefinition definierte Transformationspipeline ausführen.

to_pandas_dataframe()

Gibt zurück

Typ Beschreibung

Ein Pandas DataFrame.

Hinweise

Gibt einen Pandas DataFrame vollständig im Arbeitsspeicher materialisiert zurück.

to_spark_dataframe

Erstellen Sie einen Spark DataFrame, der die durch diesen Dataflow definierte Transformationspipeline ausführen kann.

to_spark_dataframe()

Gibt zurück

Typ Beschreibung

Ein Spark DataFrame.

Hinweise

Der zurückgegebene Spark Dataframe ist nur ein Ausführungsplan und enthält tatsächlich keine Daten, da Spark Dataframes lazily ausgewertet werden.