DatasetDefinition Klasse
Definiert eine Reihe von Schritten, die angeben, wie Daten in einem Dataset gelesen und transformiert werden.
Hinweis
Diese Klasse ist veraltet. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
Ein in einem Azure Machine Learning-Arbeitsbereich registriertes Dataset kann mehrere Definitionen aufweisen, die jeweils durch Aufrufen update_definitionerstellt werden. Jede Definition weist einen eindeutigen Bezeichner auf. Die aktuelle Definition ist die neueste Erstellte.
Bei nicht registrierten Datasets ist nur eine Definition vorhanden.
Datasetdefinitionen unterstützen alle transformationen, die für die <xref:azureml.dataprep.Dataflow> Klasse aufgeführt sind: siehe http://aka.ms/azureml/howto/transformdata. Weitere Informationen zu Datasetdefinitionen finden Sie unter https://aka.ms/azureml/howto/versiondata.
Initialisieren Sie das Datasetdefinitionsobjekt.
Konstruktor
DatasetDefinition(workspace=None, dataset_id=None, version_id=None, dataflow=None, dataflow_json=None, notes=None, etag=None, created_time=None, modified_time=None, state=None, deprecated_by_dataset_id=None, deprecated_by_definition_version=None, data_path=None, dataset=None, file_type='Unknown')
Parameter
Name | Beschreibung |
---|---|
workspace
Erforderlich
|
Der Arbeitsbereich, in dem das Dataset registriert ist. |
dataset_id
Erforderlich
|
Der Datasetbezeichner. |
version_id
Erforderlich
|
Die Definitionsversion. |
dataflow
Erforderlich
|
Das Dataflow-Objekt. |
dataflow_json
Erforderlich
|
Der Dataflow-JSON. |
notes
Erforderlich
|
Optionale Informationen zur Definition. |
etag
Erforderlich
|
Etag. |
created_time
Erforderlich
|
Die Erstellungszeit der Definition. |
modified_time
Erforderlich
|
Der Zeitpunkt der letzten Änderung der Definition. |
deprecated_by_dataset_id
Erforderlich
|
Die ID des Datasets, das diese Definition nicht mehr unterstützt. |
deprecated_by_definition_version
Erforderlich
|
Die Version der Definition, die diese Definition nicht mehr unterstützt. |
data_path
Erforderlich
|
Der Datenpfad. |
dataset
Erforderlich
|
Das übergeordnete Dataset-Objekt. |
Methoden
archive |
Archiv der Datasetdefinition. |
create_snapshot |
Erstellen Sie eine Momentaufnahme des registrierten Datasets. |
deprecate |
Veraltetes Dataset mit einem Zeiger auf das neue Dataset. |
reactivate |
Reaktivieren Sie die Datasetdefinition. Funktioniert für Datasetdefinitionen, die veraltet oder archiviert wurden. |
to_pandas_dataframe |
Erstellen Sie einen Pandas-Datenframe, indem Sie die durch diese Datasetdefinition definierte Transformationspipeline ausführen. |
to_spark_dataframe |
Erstellen Sie einen Spark DataFrame, der die durch diesen Dataflow definierte Transformationspipeline ausführen kann. |
archive
Archiv der Datasetdefinition.
archive()
Gibt zurück
Typ | Beschreibung |
---|---|
Keiner. |
Hinweise
Nach der Archivierung führt jeder Versuch, das Dataset abzurufen, zu einem Fehler. Wenn die Archivierung versehentlich erfolgt, verwenden Sie reactivate sie, um sie zu aktivieren.
create_snapshot
Erstellen Sie eine Momentaufnahme des registrierten Datasets.
create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)
Parameter
Name | Beschreibung |
---|---|
snapshot_name
Erforderlich
|
Der Momentaufnahmename. Snapshotnamen sollten innerhalb eines Datasets eindeutig sein. |
compute_target
|
ComputeTarget oder
str
Das Computeziel zum Ausführen der Erstellung des Snapshotprofils. Wenn dieser Wert nicht angegeben wird, wird der lokale Compute verwendet. Standardwert: None
|
create_data_snapshot
|
Wenn True, wird eine materialisierte Kopie der Daten erstellt. Standardwert: False
|
target_datastore
|
Der Zieldatenspeicher, in dem Momentaufnahmen gespeichert werden sollen. Wenn sie weggelassen wird, wird die Momentaufnahme im Standardspeicher des Arbeitsbereichs erstellt. Standardwert: None
|
Gibt zurück
Typ | Beschreibung |
---|---|
Ein DatasetSnapshot-Objekt. |
Hinweise
Momentaufnahmen erfassen Punkt in Zeitzusammenfassungsstatistiken der zugrunde liegenden Daten und eine optionale Kopie der Daten selbst. Weitere Informationen zum Erstellen von Momentaufnahmen finden Sie unter https://aka.ms/azureml/howto/createsnapshots.
deprecate
Veraltetes Dataset mit einem Zeiger auf das neue Dataset.
deprecate(deprecate_by_dataset_id, deprecated_by_definition_version=None)
Parameter
Name | Beschreibung |
---|---|
deprecate_by_dataset_id
Erforderlich
|
Die Dataset-ID, die für die Veraltetkeit des aktuellen Datasets verantwortlich ist. |
deprecated_by_definition_version
|
Die Datasetdefinitionsversion, die für die Veraltetkeit der aktuellen Datasetdefinition verantwortlich ist. Standardwert: None
|
Gibt zurück
Typ | Beschreibung |
---|---|
Keiner. |
Hinweise
Veraltete Datasetdefinitionen protokollieren Warnungen, wenn sie verbraucht werden. Um die Nutzung einer Datasetdefinition vollständig zu blockieren, archivieren Sie sie.
Wenn eine Datasetdefinition versehentlich veraltet ist, verwenden Sie reactivate sie, um sie zu aktivieren.
reactivate
Reaktivieren Sie die Datasetdefinition.
Funktioniert für Datasetdefinitionen, die veraltet oder archiviert wurden.
reactivate()
Gibt zurück
Typ | Beschreibung |
---|---|
Keiner. |
to_pandas_dataframe
Erstellen Sie einen Pandas-Datenframe, indem Sie die durch diese Datasetdefinition definierte Transformationspipeline ausführen.
to_pandas_dataframe()
Gibt zurück
Typ | Beschreibung |
---|---|
Ein Pandas DataFrame. |
Hinweise
Gibt einen Pandas DataFrame vollständig im Arbeitsspeicher materialisiert zurück.
to_spark_dataframe
Erstellen Sie einen Spark DataFrame, der die durch diesen Dataflow definierte Transformationspipeline ausführen kann.
to_spark_dataframe()
Gibt zurück
Typ | Beschreibung |
---|---|
Ein Spark DataFrame. |
Hinweise
Der zurückgegebene Spark Dataframe ist nur ein Ausführungsplan und enthält tatsächlich keine Daten, da Spark Dataframes lazily ausgewertet werden.