Delen via


DatasetDefinition Klas

Definieert een reeks stappen die aangeven hoe gegevens in een gegevensset moeten worden gelezen en getransformeerd.

Notitie

Deze klasse is afgeschaft. Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.

Een gegevensset die is geregistreerd in een Azure Machine Learning-werkruimte, kan meerdere definities hebben, die elk zijn gemaakt door aan te roepen update_definition. Elke definitie heeft een unieke id. De huidige definitie is de meest recente definitie die is gemaakt.

Voor niet-geregistreerde gegevenssets bestaat slechts één definitie.

Definities van gegevenssets ondersteunen alle transformaties die worden vermeld voor de <xref:azureml.dataprep.Dataflow> klasse: zie http://aka.ms/azureml/howto/transformdata. Ga naar https://aka.ms/azureml/howto/versiondatavoor meer informatie over gegevenssetdefinities.

Initialiseer het definitieobject van de gegevensset.

Overname
azureml.dataprep.api.engineless_dataflow.EnginelessDataflow
DatasetDefinition

Constructor

DatasetDefinition(workspace=None, dataset_id=None, version_id=None, dataflow=None, dataflow_json=None, notes=None, etag=None, created_time=None, modified_time=None, state=None, deprecated_by_dataset_id=None, deprecated_by_definition_version=None, data_path=None, dataset=None, file_type='Unknown')

Parameters

Name Description
workspace
Vereist
str

De werkruimte waarin de gegevensset is geregistreerd.

dataset_id
Vereist
str

De gegevensset-id.

version_id
Vereist
str

De definitieversie.

dataflow
Vereist
str

Het object Gegevensstroom.

dataflow_json
Vereist

De JSON Van de gegevensstroom.

notes
Vereist
str

Optionele informatie over de definitie.

etag
Vereist
str

Etag.

created_time
Vereist

De aanmaaktijd van de definitie.

modified_time
Vereist

Het tijdstip van de laatste wijziging van de definitie.

deprecated_by_dataset_id
Vereist
str

De id van de gegevensset waarmee deze definitie wordt afgeschaft.

deprecated_by_definition_version
Vereist
str

De versie van de definitie waarmee deze definitie wordt afgeschaft.

data_path
Vereist

Het gegevenspad.

dataset
Vereist

Het bovenliggende gegevenssetobject.

Methoden

archive

Archiveer de definitie van de gegevensset.

create_snapshot

Maak een momentopname van de geregistreerde gegevensset.

deprecate

Beëindig de gegevensset met een aanwijzer naar de nieuwe gegevensset.

reactivate

De definitie van de gegevensset opnieuw activeren.

Werkt met definities van gegevenssets die zijn afgeschaft of gearchiveerd.

to_pandas_dataframe

Maak een Pandas-gegevensframe door de transformatiepijplijn uit te voeren die is gedefinieerd door deze definitie van de gegevensset.

to_spark_dataframe

Maak een Spark DataFrame waarmee de transformatiepijplijn kan worden uitgevoerd die is gedefinieerd door deze gegevensstroom.

archive

Archiveer de definitie van de gegevensset.

archive()

Retouren

Type Description

Geen.

Opmerkingen

Na archivering resulteert elke poging om de gegevensset op te halen in een fout. Als deze per ongeluk wordt gearchiveerd, gebruikt reactivate u om het te activeren.

create_snapshot

Maak een momentopname van de geregistreerde gegevensset.

create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)

Parameters

Name Description
snapshot_name
Vereist
str

De naam van de momentopname. Namen van momentopnamen moeten uniek zijn binnen een gegevensset.

compute_target

Het rekendoel om het momentopnameprofiel te maken. Als u dit weglaat, wordt de lokale berekening gebruikt.

Default value: None
create_data_snapshot

Indien Waar, wordt er een gerealiseerde kopie van de gegevens gemaakt.

Default value: False
target_datastore

Het doelgegevensarchief waar de momentopname moet worden opgeslagen. Als u dit weglaat, wordt de momentopname gemaakt in de standaardopslag van de werkruimte.

Default value: None

Retouren

Type Description

Een DatasetSnapshot-object.

Opmerkingen

Momentopnamen leggen overzichtsstatistieken over een bepaald tijdstip vast van de onderliggende gegevens en een optionele kopie van de gegevens zelf. Ga naar https://aka.ms/azureml/howto/createsnapshotsvoor meer informatie over het maken van momentopnamen.

deprecate

Beëindig de gegevensset met een aanwijzer naar de nieuwe gegevensset.

deprecate(deprecate_by_dataset_id, deprecated_by_definition_version=None)

Parameters

Name Description
deprecate_by_dataset_id
Vereist

De gegevensset-id die verantwoordelijk is voor de afschaffing van de huidige gegevensset.

deprecated_by_definition_version
str

De definitieversie van de gegevensset die verantwoordelijk is voor het afschaffen van de huidige gegevenssetdefinitie.

Default value: None

Retouren

Type Description

Geen.

Opmerkingen

Afgeschafte definities van gegevenssets registreren waarschuwingen wanneer ze worden gebruikt. Als u het gebruik van een gegevenssetdefinitie volledig wilt blokkeren, moet u deze archiveren.

Als een definitie van een gegevensset per ongeluk wordt afgeschaft, gebruikt reactivate u om deze te activeren.

reactivate

De definitie van de gegevensset opnieuw activeren.

Werkt met definities van gegevenssets die zijn afgeschaft of gearchiveerd.

reactivate()

Retouren

Type Description

Geen.

to_pandas_dataframe

Maak een Pandas-gegevensframe door de transformatiepijplijn uit te voeren die is gedefinieerd door deze definitie van de gegevensset.

to_pandas_dataframe()

Retouren

Type Description

Een Pandas DataFrame.

Opmerkingen

Retourneer een Pandas DataFrame dat volledig is gerealiseerd in het geheugen.

to_spark_dataframe

Maak een Spark DataFrame waarmee de transformatiepijplijn kan worden uitgevoerd die is gedefinieerd door deze gegevensstroom.

to_spark_dataframe()

Retouren

Type Description

Een Spark DataFrame.

Opmerkingen

Het geretourneerde Spark-dataframe is alleen een uitvoeringsplan en bevat geen gegevens, omdat Spark Dataframes te langzaam worden geëvalueerd.