DatasetDefinition Klasse
Definiert eine Reihe von Schritten, die angeben, wie Daten in einem Dataset gelesen und transformiert werden.
Hinweis
Diese Klasse ist veraltet. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
Ein in einem Azure Machine Learning-Arbeitsbereich registriertes Dataset kann über mehrere Definitionen verfügen, die jeweils durch Aufrufen von update_definition erstellt werden. Jede Definition besitzt einen eindeutigen Bezeichner. Die aktuelle Definition ist die zuletzt erstellte.
Für nicht registrierte Datasets gibt es nur eine Definition.
Datasetdefinitionen unterstützen alle Transformationen, die für die <xref:azureml.dataprep.Dataflow>-Klasse aufgeführt sind: siehe http://aka.ms/azureml/howto/transformdata. Weitere Informationen zu Datasetdefinitionen finden Sie unter https://aka.ms/azureml/howto/versiondata.
Initialisieren Sie das Datasetdefinitionsobjekt.
- Vererbung
-
azureml.dataprep.api.engineless_dataflow.EnginelessDataflowDatasetDefinition
Konstruktor
DatasetDefinition(workspace=None, dataset_id=None, version_id=None, dataflow=None, dataflow_json=None, notes=None, etag=None, created_time=None, modified_time=None, state=None, deprecated_by_dataset_id=None, deprecated_by_definition_version=None, data_path=None, dataset=None, file_type='Unknown')
Parameter
- dataflow_json
Der Dataflow-JSON-Code.
- deprecated_by_dataset_id
- str
Die ID des Datasets, das diese Definition als veraltet bezeichnet.
- deprecated_by_definition_version
- str
Die Version der Definition, die diese Definition als veraltet darstellt.
Methoden
archive |
Archivieren Sie die Datasetdefinition. |
create_snapshot |
Erstellt eine Momentaufnahme des registrierten Datasets. |
deprecate |
Kennzeichnet das Dataset als veraltet und versieht es mit einem Zeiger auf das neue Dataset. |
reactivate |
Aktivieren Sie die Datasetdefinition erneut. Wird mit Datasetdefinitionen verwendet, die als veraltet gekennzeichnet oder archiviert wurden. |
to_pandas_dataframe |
Erstellen Sie einen Pandas-Datenrahmen durch Ausführen der Transformationspipeline, die durch diese Datasetdefinition festgelegt wird. |
to_spark_dataframe |
Erstellen Sie einen Spark-DataFrame, der die durch diesen Dataflow festgelegte Transformationspipeline ausführen kann. |
archive
Archivieren Sie die Datasetdefinition.
archive()
Gibt zurück
Keine.
Rückgabetyp
Hinweise
Nach der Archivierung führt jeder Versuch, das Dataset abzurufen, zu einem Fehler. Verwenden Sie bei einer versehentlichen Aktivierung reactivate, um es zu aktivieren.
create_snapshot
Erstellt eine Momentaufnahme des registrierten Datasets.
create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)
Parameter
- snapshot_name
- str
Der Name der Momentaufnahme. Momentaufnahmenamen sollten innerhalb eines Datasets eindeutig sein.
- compute_target
- ComputeTarget oder str
Das Computeziel zum Erstellen des Momentaufnahmeprofils. Wenn keine Angabe erfolgt, wird das lokale Computeziel verwendet.
- create_data_snapshot
- bool
TRUE gibt an, dass eine materialisierte Kopie der Daten erstellt wird.
- target_datastore
- Union[AbstractAzureStorageDatastore, str]
Der Zieldatenspeicher, in dem die Momentaufnahme gespeichert werden soll. Wenn keine Angabe erfolgt, wird die Momentaufnahme im Standardspeicher des Arbeitsbereichs erstellt.
Gibt zurück
Ein DatasetSnapshot-Objekt.
Rückgabetyp
Hinweise
Momentaufnahmen erfassen zusammenfassende Statistiken der zugrunde liegenden Daten zu einem bestimmten Zeitpunkt und eine optionale Kopie der Daten selbst. Weitere Informationen zum Erstellen von Momentaufnahmen finden Sie unter https://aka.ms/azureml/howto/createsnapshots.
deprecate
Kennzeichnet das Dataset als veraltet und versieht es mit einem Zeiger auf das neue Dataset.
deprecate(deprecate_by_dataset_id, deprecated_by_definition_version=None)
Parameter
- deprecate_by_dataset_id
- uuid
Die Dataset-ID, die für das Kennzeichnen des aktuellen Datasets als veraltet verwendet wird.
- deprecated_by_definition_version
- str
Die Datasetdefinition, die für das Kennzeichnen der aktuellen Datasetdefinition als veraltet verwendet wird.
Gibt zurück
Keine.
Rückgabetyp
Hinweise
Veraltete Datasetdefinitionen führen zu Protokollwarnungen, wenn sie verwendet werden. Wenn Sie eine Datasetdefinition vollständig von der Verwendung ausschließen möchten, archivieren Sie sie.
Wenn eine Datasetdefinition versehentlich als veraltet gekennzeichnet wurde, verwenden Sie reactivate, um sie zu aktivieren.
reactivate
Aktivieren Sie die Datasetdefinition erneut.
Wird mit Datasetdefinitionen verwendet, die als veraltet gekennzeichnet oder archiviert wurden.
reactivate()
Gibt zurück
Keine.
Rückgabetyp
to_pandas_dataframe
Erstellen Sie einen Pandas-Datenrahmen durch Ausführen der Transformationspipeline, die durch diese Datasetdefinition festgelegt wird.
to_pandas_dataframe()
Gibt zurück
Ein Pandas-Datenrahmen.
Rückgabetyp
Hinweise
Gibt einen vollständig im Arbeitsspeicher materialisierten Pandas-Datenrahmen zurück.
to_spark_dataframe
Erstellen Sie einen Spark-DataFrame, der die durch diesen Dataflow festgelegte Transformationspipeline ausführen kann.
to_spark_dataframe()
Gibt zurück
Ein Spark-Datenrahmen.
Rückgabetyp
Hinweise
Der zurückgegebene Spark-Datenrahmen ist nur ein Ausführungsplan, der keine tatsächlichen Daten enthält, da Spark-Datenrahmen verzögert ausgewertet werden.
Feedback
https://aka.ms/ContentUserFeedback.
Bald verfügbar: Im Laufe des Jahres 2024 werden wir GitHub-Issues stufenweise als Feedbackmechanismus für Inhalte abbauen und durch ein neues Feedbacksystem ersetzen. Weitere Informationen finden Sie unterFeedback senden und anzeigen für