DatasetDefinition Klas

Referentie

Definieert een reeks stappen die aangeven hoe gegevens in een gegevensset moeten worden gelezen en getransformeerd.

Notitie

Deze klasse is afgeschaft. Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.

Een gegevensset die is geregistreerd in een Azure Machine Learning-werkruimte, kan meerdere definities hebben, die elk zijn gemaakt door aan te roepen update_definition. Elke definitie heeft een unieke id. De huidige definitie is de meest recente definitie die is gemaakt.

Voor niet-geregistreerde gegevenssets bestaat slechts één definitie.

Definities van gegevenssets ondersteunen alle transformaties die worden vermeld voor de <xref:azureml.dataprep.Dataflow> klasse: zie http://aka.ms/azureml/howto/transformdata. Ga naar https://aka.ms/azureml/howto/versiondatavoor meer informatie over gegevenssetdefinities.

Initialiseer het definitieobject van de gegevensset.

Overname: azureml.dataprep.api.engineless_dataflow.EnginelessDataflow

DatasetDefinition

Constructor

DatasetDefinition(workspace=None, dataset_id=None, version_id=None, dataflow=None, dataflow_json=None, notes=None, etag=None, created_time=None, modified_time=None, state=None, deprecated_by_dataset_id=None, deprecated_by_definition_version=None, data_path=None, dataset=None, file_type='Unknown')

Parameters

Name	Description
workspace Vereist	str De werkruimte waarin de gegevensset is geregistreerd.
dataset_id Vereist	str De gegevensset-id.
version_id Vereist	str De definitieversie.
dataflow Vereist	str Het object Gegevensstroom.
dataflow_json Vereist	De JSON Van de gegevensstroom.
notes Vereist	str Optionele informatie over de definitie.
etag Vereist	str Etag.
created_time Vereist	datetime De aanmaaktijd van de definitie.
modified_time Vereist	datetime Het tijdstip van de laatste wijziging van de definitie.
deprecated_by_dataset_id Vereist	str De id van de gegevensset waarmee deze definitie wordt afgeschaft.
deprecated_by_definition_version Vereist	str De versie van de definitie waarmee deze definitie wordt afgeschaft.
data_path Vereist	DataPath Het gegevenspad.
dataset Vereist	Dataset Het bovenliggende gegevenssetobject.

Methoden

archive	Archiveer de definitie van de gegevensset.
create_snapshot	Maak een momentopname van de geregistreerde gegevensset.
deprecate	Beëindig de gegevensset met een aanwijzer naar de nieuwe gegevensset.
reactivate	De definitie van de gegevensset opnieuw activeren. Werkt met definities van gegevenssets die zijn afgeschaft of gearchiveerd.
to_pandas_dataframe	Maak een Pandas-gegevensframe door de transformatiepijplijn uit te voeren die is gedefinieerd door deze definitie van de gegevensset.
to_spark_dataframe	Maak een Spark DataFrame waarmee de transformatiepijplijn kan worden uitgevoerd die is gedefinieerd door deze gegevensstroom.

create_snapshot

Maak een momentopname van de geregistreerde gegevensset.

create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)

Parameters

Name	Description
snapshot_name Vereist	str De naam van de momentopname. Namen van momentopnamen moeten uniek zijn binnen een gegevensset.
compute_target	ComputeTarget of str Het rekendoel om het momentopnameprofiel te maken. Als u dit weglaat, wordt de lokale berekening gebruikt. Default value: None
create_data_snapshot	bool Indien Waar, wordt er een gerealiseerde kopie van de gegevens gemaakt. Default value: False
target_datastore	Union[AbstractAzureStorageDatastore, str] Het doelgegevensarchief waar de momentopname moet worden opgeslagen. Als u dit weglaat, wordt de momentopname gemaakt in de standaardopslag van de werkruimte. Default value: None

Retouren

Type	Description
DatasetSnapshot	Een DatasetSnapshot-object.

Opmerkingen

Momentopnamen leggen overzichtsstatistieken over een bepaald tijdstip vast van de onderliggende gegevens en een optionele kopie van de gegevens zelf. Ga naar https://aka.ms/azureml/howto/createsnapshotsvoor meer informatie over het maken van momentopnamen.

deprecate

Beëindig de gegevensset met een aanwijzer naar de nieuwe gegevensset.

deprecate(deprecate_by_dataset_id, deprecated_by_definition_version=None)

Parameters

Name	Description
deprecate_by_dataset_id Vereist	uuid De gegevensset-id die verantwoordelijk is voor de afschaffing van de huidige gegevensset.
deprecated_by_definition_version	str De definitieversie van de gegevensset die verantwoordelijk is voor het afschaffen van de huidige gegevenssetdefinitie. Default value: None

Retouren

Type	Description
None	Geen.

Opmerkingen

Afgeschafte definities van gegevenssets registreren waarschuwingen wanneer ze worden gebruikt. Als u het gebruik van een gegevenssetdefinitie volledig wilt blokkeren, moet u deze archiveren.

Als een definitie van een gegevensset per ongeluk wordt afgeschaft, gebruikt reactivate u om deze te activeren.

reactivate

De definitie van de gegevensset opnieuw activeren.

Werkt met definities van gegevenssets die zijn afgeschaft of gearchiveerd.

reactivate()

Retouren

Type	Description
None	Geen.

to_pandas_dataframe

Maak een Pandas-gegevensframe door de transformatiepijplijn uit te voeren die is gedefinieerd door deze definitie van de gegevensset.

to_pandas_dataframe()

Retouren

Type	Description
DataFrame	Een Pandas DataFrame.

Opmerkingen

Retourneer een Pandas DataFrame dat volledig is gerealiseerd in het geheugen.

to_spark_dataframe

Maak een Spark DataFrame waarmee de transformatiepijplijn kan worden uitgevoerd die is gedefinieerd door deze gegevensstroom.

to_spark_dataframe()

Retouren

Type	Description
DataFrame	Een Spark DataFrame.

Opmerkingen

Het geretourneerde Spark-dataframe is alleen een uitvoeringsplan en bevat geen gegevens, omdat Spark Dataframes te langzaam worden geëvalueerd.

Delen via

DatasetDefinition Klas

Constructor

Parameters

Methoden

archive

Retouren

Opmerkingen

create_snapshot

Parameters

Retouren

Opmerkingen

deprecate

Parameters

Retouren

Opmerkingen

reactivate

Retouren

to_pandas_dataframe

Retouren

Opmerkingen

to_spark_dataframe

Retouren

Opmerkingen

Feedback

Aanvullende resources