DatasetDefinition Klasse

Referenz

Definiert eine Reihe von Schritten, die angeben, wie Daten in einem Dataset gelesen und transformiert werden.

Hinweis

Diese Klasse ist veraltet. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

Ein in einem Azure Machine Learning-Arbeitsbereich registriertes Dataset kann über mehrere Definitionen verfügen, die jeweils durch Aufrufen von update_definition erstellt werden. Jede Definition besitzt einen eindeutigen Bezeichner. Die aktuelle Definition ist die zuletzt erstellte.

Für nicht registrierte Datasets gibt es nur eine Definition.

Datasetdefinitionen unterstützen alle Transformationen, die für die <xref:azureml.dataprep.Dataflow>-Klasse aufgeführt sind: siehe http://aka.ms/azureml/howto/transformdata. Weitere Informationen zu Datasetdefinitionen finden Sie unter https://aka.ms/azureml/howto/versiondata.

Initialisieren Sie das Datasetdefinitionsobjekt.

Vererbung: azureml.dataprep.api.engineless_dataflow.EnginelessDataflow

DatasetDefinition

Konstruktor

DatasetDefinition(workspace=None, dataset_id=None, version_id=None, dataflow=None, dataflow_json=None, notes=None, etag=None, created_time=None, modified_time=None, state=None, deprecated_by_dataset_id=None, deprecated_by_definition_version=None, data_path=None, dataset=None, file_type='Unknown')

Parameter

workspace: str

Erforderlich

Der Arbeitsbereich, in dem das Dataset registriert ist.

dataset_id: str

Erforderlich

Der Datasetbezeichner.

version_id: str

Erforderlich

Die Definitionsversion.

dataflow: str

Erforderlich

Das Dataflow-Objekt.

dataflow_json

Erforderlich

Der Dataflow-JSON-Code.

notes: str

Erforderlich

Optionale Informationen zur Definition.

etag: str

Erforderlich

Etag.

created_time: datetime

Erforderlich

Die Erstellungszeit der Definition.

modified_time: datetime

Erforderlich

Der Zeitpunkt der letzten Änderung der Definition.

deprecated_by_dataset_id: str

Erforderlich

Die ID des Datasets, das diese Definition als veraltet bezeichnet.

deprecated_by_definition_version: str

Erforderlich

Die Version der Definition, die diese Definition als veraltet darstellt.

data_path: DataPath

Erforderlich

Der Datenpfad.

dataset: Dataset

Erforderlich

Das übergeordnete Dataset-Objekt.

Methoden

archive	Archivieren Sie die Datasetdefinition.
create_snapshot	Erstellt eine Momentaufnahme des registrierten Datasets.
deprecate	Kennzeichnet das Dataset als veraltet und versieht es mit einem Zeiger auf das neue Dataset.
reactivate	Aktivieren Sie die Datasetdefinition erneut. Wird mit Datasetdefinitionen verwendet, die als veraltet gekennzeichnet oder archiviert wurden.
to_pandas_dataframe	Erstellen Sie einen Pandas-Datenrahmen durch Ausführen der Transformationspipeline, die durch diese Datasetdefinition festgelegt wird.
to_spark_dataframe	Erstellen Sie einen Spark-DataFrame, der die durch diesen Dataflow festgelegte Transformationspipeline ausführen kann.

create_snapshot

Erstellt eine Momentaufnahme des registrierten Datasets.

create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)

Parameter

snapshot_name: str

Erforderlich

Der Name der Momentaufnahme. Momentaufnahmenamen sollten innerhalb eines Datasets eindeutig sein.

compute_target: ComputeTarget oder str

Standardwert: None

Das Computeziel zum Erstellen des Momentaufnahmeprofils. Wenn keine Angabe erfolgt, wird das lokale Computeziel verwendet.

create_data_snapshot: bool

Standardwert: False

TRUE gibt an, dass eine materialisierte Kopie der Daten erstellt wird.

target_datastore: Union[AbstractAzureStorageDatastore, str]

Standardwert: None

Der Zieldatenspeicher, in dem die Momentaufnahme gespeichert werden soll. Wenn keine Angabe erfolgt, wird die Momentaufnahme im Standardspeicher des Arbeitsbereichs erstellt.

Gibt zurück

Ein DatasetSnapshot-Objekt.

Rückgabetyp

DatasetSnapshot

Hinweise

Momentaufnahmen erfassen zusammenfassende Statistiken der zugrunde liegenden Daten zu einem bestimmten Zeitpunkt und eine optionale Kopie der Daten selbst. Weitere Informationen zum Erstellen von Momentaufnahmen finden Sie unter https://aka.ms/azureml/howto/createsnapshots.

deprecate

Kennzeichnet das Dataset als veraltet und versieht es mit einem Zeiger auf das neue Dataset.

deprecate(deprecate_by_dataset_id, deprecated_by_definition_version=None)

Parameter

deprecate_by_dataset_id: uuid

Erforderlich

Die Dataset-ID, die für das Kennzeichnen des aktuellen Datasets als veraltet verwendet wird.

deprecated_by_definition_version: str

Standardwert: None

Die Datasetdefinition, die für das Kennzeichnen der aktuellen Datasetdefinition als veraltet verwendet wird.

Gibt zurück

Keine.

Rückgabetyp

None

Hinweise

Veraltete Datasetdefinitionen führen zu Protokollwarnungen, wenn sie verwendet werden. Wenn Sie eine Datasetdefinition vollständig von der Verwendung ausschließen möchten, archivieren Sie sie.

Wenn eine Datasetdefinition versehentlich als veraltet gekennzeichnet wurde, verwenden Sie reactivate, um sie zu aktivieren.

reactivate

Aktivieren Sie die Datasetdefinition erneut.

Wird mit Datasetdefinitionen verwendet, die als veraltet gekennzeichnet oder archiviert wurden.

reactivate()

Gibt zurück

Keine.

Rückgabetyp

None

to_pandas_dataframe

Erstellen Sie einen Pandas-Datenrahmen durch Ausführen der Transformationspipeline, die durch diese Datasetdefinition festgelegt wird.

to_pandas_dataframe()

Gibt zurück

Ein Pandas-Datenrahmen.

Rückgabetyp

DataFrame

Hinweise

Gibt einen vollständig im Arbeitsspeicher materialisierten Pandas-Datenrahmen zurück.

to_spark_dataframe

Erstellen Sie einen Spark-DataFrame, der die durch diesen Dataflow festgelegte Transformationspipeline ausführen kann.

to_spark_dataframe()

Gibt zurück

Ein Spark-Datenrahmen.

Rückgabetyp

DataFrame

Hinweise

Der zurückgegebene Spark-Datenrahmen ist nur ein Ausführungsplan, der keine tatsächlichen Daten enthält, da Spark-Datenrahmen verzögert ausgewertet werden.

DatasetDefinition Klasse

Konstruktor

Parameter

Methoden

archive

Gibt zurück

Rückgabetyp

Hinweise

create_snapshot

Parameter

Gibt zurück

Rückgabetyp

Hinweise

deprecate

Parameter

Gibt zurück

Rückgabetyp

Hinweise

reactivate

Gibt zurück

Rückgabetyp

to_pandas_dataframe

Gibt zurück

Rückgabetyp

Hinweise

to_spark_dataframe

Gibt zurück

Rückgabetyp

Hinweise

Feedback

Feedback

Zusätzliche Ressourcen