DatasetDefinition Klas
Definieert een reeks stappen die aangeven hoe gegevens in een gegevensset moeten worden gelezen en getransformeerd.
Notitie
Deze klasse is afgeschaft. Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.
Een gegevensset die is geregistreerd in een Azure Machine Learning-werkruimte, kan meerdere definities hebben, die elk zijn gemaakt door aan te roepen update_definition. Elke definitie heeft een unieke id. De huidige definitie is de meest recente definitie die is gemaakt.
Voor niet-geregistreerde gegevenssets bestaat slechts één definitie.
Definities van gegevenssets ondersteunen alle transformaties die worden vermeld voor de <xref:azureml.dataprep.Dataflow> klasse: zie http://aka.ms/azureml/howto/transformdata. Ga naar https://aka.ms/azureml/howto/versiondatavoor meer informatie over gegevenssetdefinities.
Initialiseer het definitieobject van de gegevensset.
- Overname
-
azureml.dataprep.api.engineless_dataflow.EnginelessDataflowDatasetDefinition
Constructor
DatasetDefinition(workspace=None, dataset_id=None, version_id=None, dataflow=None, dataflow_json=None, notes=None, etag=None, created_time=None, modified_time=None, state=None, deprecated_by_dataset_id=None, deprecated_by_definition_version=None, data_path=None, dataset=None, file_type='Unknown')
Parameters
- dataflow_json
De JSON Van de gegevensstroom.
- deprecated_by_dataset_id
- str
De id van de gegevensset waarmee deze definitie wordt afgeschaft.
- deprecated_by_definition_version
- str
De versie van de definitie waarmee deze definitie wordt afgeschaft.
Methoden
archive |
Archiveer de definitie van de gegevensset. |
create_snapshot |
Maak een momentopname van de geregistreerde gegevensset. |
deprecate |
Beëindig de gegevensset met een aanwijzer naar de nieuwe gegevensset. |
reactivate |
De definitie van de gegevensset opnieuw activeren. Werkt met definities van gegevenssets die zijn afgeschaft of gearchiveerd. |
to_pandas_dataframe |
Maak een Pandas-gegevensframe door de transformatiepijplijn uit te voeren die is gedefinieerd door deze definitie van de gegevensset. |
to_spark_dataframe |
Maak een Spark DataFrame waarmee de transformatiepijplijn kan worden uitgevoerd die is gedefinieerd door deze gegevensstroom. |
archive
Archiveer de definitie van de gegevensset.
archive()
Retouren
Geen.
Retourtype
Opmerkingen
Na archivering resulteert elke poging om de gegevensset op te halen in een fout. Als deze per ongeluk wordt gearchiveerd, gebruikt reactivate u om het te activeren.
create_snapshot
Maak een momentopname van de geregistreerde gegevensset.
create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)
Parameters
- snapshot_name
- str
De naam van de momentopname. Namen van momentopnamen moeten uniek zijn binnen een gegevensset.
- compute_target
- ComputeTarget of str
Het rekendoel om het momentopnameprofiel te maken. Als u dit weglaat, wordt de lokale berekening gebruikt.
- create_data_snapshot
- bool
Indien Waar, wordt er een gerealiseerde kopie van de gegevens gemaakt.
- target_datastore
- Union[AbstractAzureStorageDatastore, str]
Het doelgegevensarchief waar de momentopname moet worden opgeslagen. Als u dit weglaat, wordt de momentopname gemaakt in de standaardopslag van de werkruimte.
Retouren
Een DatasetSnapshot-object.
Retourtype
Opmerkingen
Momentopnamen leggen overzichtsstatistieken over een bepaald tijdstip vast van de onderliggende gegevens en een optionele kopie van de gegevens zelf. Ga naar https://aka.ms/azureml/howto/createsnapshotsvoor meer informatie over het maken van momentopnamen.
deprecate
Beëindig de gegevensset met een aanwijzer naar de nieuwe gegevensset.
deprecate(deprecate_by_dataset_id, deprecated_by_definition_version=None)
Parameters
- deprecate_by_dataset_id
- uuid
De gegevensset-id die verantwoordelijk is voor de afschaffing van de huidige gegevensset.
- deprecated_by_definition_version
- str
De definitieversie van de gegevensset die verantwoordelijk is voor het afschaffen van de huidige gegevenssetdefinitie.
Retouren
Geen.
Retourtype
Opmerkingen
Afgeschafte definities van gegevenssets registreren waarschuwingen wanneer ze worden gebruikt. Als u het gebruik van een gegevenssetdefinitie volledig wilt blokkeren, moet u deze archiveren.
Als een definitie van een gegevensset per ongeluk wordt afgeschaft, gebruikt reactivate u om deze te activeren.
reactivate
De definitie van de gegevensset opnieuw activeren.
Werkt met definities van gegevenssets die zijn afgeschaft of gearchiveerd.
reactivate()
Retouren
Geen.
Retourtype
to_pandas_dataframe
Maak een Pandas-gegevensframe door de transformatiepijplijn uit te voeren die is gedefinieerd door deze definitie van de gegevensset.
to_pandas_dataframe()
Retouren
Een Pandas DataFrame.
Retourtype
Opmerkingen
Retourneer een Pandas DataFrame dat volledig is gerealiseerd in het geheugen.
to_spark_dataframe
Maak een Spark DataFrame waarmee de transformatiepijplijn kan worden uitgevoerd die is gedefinieerd door deze gegevensstroom.
to_spark_dataframe()
Retouren
Een Spark DataFrame.
Retourtype
Opmerkingen
Het geretourneerde Spark-dataframe is alleen een uitvoeringsplan en bevat geen gegevens, omdat Spark Dataframes te langzaam worden geëvalueerd.
Feedback
https://aka.ms/ContentUserFeedback.
Binnenkort beschikbaar: In de loop van 2024 zullen we GitHub-problemen geleidelijk uitfaseren als het feedbackmechanisme voor inhoud en deze vervangen door een nieuw feedbacksysteem. Zie voor meer informatie:Feedback verzenden en weergeven voor