DatasetDefinition Klas
Definieert een reeks stappen die aangeven hoe gegevens in een gegevensset moeten worden gelezen en getransformeerd.
Notitie
Deze klasse is afgeschaft. Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.
Een gegevensset die is geregistreerd in een Azure Machine Learning-werkruimte, kan meerdere definities hebben, die elk zijn gemaakt door aan te roepen update_definition. Elke definitie heeft een unieke id. De huidige definitie is de meest recente definitie die is gemaakt.
Voor niet-geregistreerde gegevenssets bestaat slechts één definitie.
Definities van gegevenssets ondersteunen alle transformaties die worden vermeld voor de <xref:azureml.dataprep.Dataflow> klasse: zie http://aka.ms/azureml/howto/transformdata. Ga naar https://aka.ms/azureml/howto/versiondatavoor meer informatie over gegevenssetdefinities.
Initialiseer het definitieobject van de gegevensset.
- Overname
-
azureml.dataprep.api.engineless_dataflow.EnginelessDataflowDatasetDefinition
Constructor
DatasetDefinition(workspace=None, dataset_id=None, version_id=None, dataflow=None, dataflow_json=None, notes=None, etag=None, created_time=None, modified_time=None, state=None, deprecated_by_dataset_id=None, deprecated_by_definition_version=None, data_path=None, dataset=None, file_type='Unknown')
Parameters
Name | Description |
---|---|
workspace
Vereist
|
De werkruimte waarin de gegevensset is geregistreerd. |
dataset_id
Vereist
|
De gegevensset-id. |
version_id
Vereist
|
De definitieversie. |
dataflow
Vereist
|
Het object Gegevensstroom. |
dataflow_json
Vereist
|
De JSON Van de gegevensstroom. |
notes
Vereist
|
Optionele informatie over de definitie. |
etag
Vereist
|
Etag. |
created_time
Vereist
|
De aanmaaktijd van de definitie. |
modified_time
Vereist
|
Het tijdstip van de laatste wijziging van de definitie. |
deprecated_by_dataset_id
Vereist
|
De id van de gegevensset waarmee deze definitie wordt afgeschaft. |
deprecated_by_definition_version
Vereist
|
De versie van de definitie waarmee deze definitie wordt afgeschaft. |
data_path
Vereist
|
Het gegevenspad. |
dataset
Vereist
|
Het bovenliggende gegevenssetobject. |
Methoden
archive |
Archiveer de definitie van de gegevensset. |
create_snapshot |
Maak een momentopname van de geregistreerde gegevensset. |
deprecate |
Beëindig de gegevensset met een aanwijzer naar de nieuwe gegevensset. |
reactivate |
De definitie van de gegevensset opnieuw activeren. Werkt met definities van gegevenssets die zijn afgeschaft of gearchiveerd. |
to_pandas_dataframe |
Maak een Pandas-gegevensframe door de transformatiepijplijn uit te voeren die is gedefinieerd door deze definitie van de gegevensset. |
to_spark_dataframe |
Maak een Spark DataFrame waarmee de transformatiepijplijn kan worden uitgevoerd die is gedefinieerd door deze gegevensstroom. |
archive
Archiveer de definitie van de gegevensset.
archive()
Retouren
Type | Description |
---|---|
Geen. |
Opmerkingen
Na archivering resulteert elke poging om de gegevensset op te halen in een fout. Als deze per ongeluk wordt gearchiveerd, gebruikt reactivate u om het te activeren.
create_snapshot
Maak een momentopname van de geregistreerde gegevensset.
create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)
Parameters
Name | Description |
---|---|
snapshot_name
Vereist
|
De naam van de momentopname. Namen van momentopnamen moeten uniek zijn binnen een gegevensset. |
compute_target
|
ComputeTarget of
str
Het rekendoel om het momentopnameprofiel te maken. Als u dit weglaat, wordt de lokale berekening gebruikt. Default value: None
|
create_data_snapshot
|
Indien Waar, wordt er een gerealiseerde kopie van de gegevens gemaakt. Default value: False
|
target_datastore
|
Het doelgegevensarchief waar de momentopname moet worden opgeslagen. Als u dit weglaat, wordt de momentopname gemaakt in de standaardopslag van de werkruimte. Default value: None
|
Retouren
Type | Description |
---|---|
Een DatasetSnapshot-object. |
Opmerkingen
Momentopnamen leggen overzichtsstatistieken over een bepaald tijdstip vast van de onderliggende gegevens en een optionele kopie van de gegevens zelf. Ga naar https://aka.ms/azureml/howto/createsnapshotsvoor meer informatie over het maken van momentopnamen.
deprecate
Beëindig de gegevensset met een aanwijzer naar de nieuwe gegevensset.
deprecate(deprecate_by_dataset_id, deprecated_by_definition_version=None)
Parameters
Name | Description |
---|---|
deprecate_by_dataset_id
Vereist
|
De gegevensset-id die verantwoordelijk is voor de afschaffing van de huidige gegevensset. |
deprecated_by_definition_version
|
De definitieversie van de gegevensset die verantwoordelijk is voor het afschaffen van de huidige gegevenssetdefinitie. Default value: None
|
Retouren
Type | Description |
---|---|
Geen. |
Opmerkingen
Afgeschafte definities van gegevenssets registreren waarschuwingen wanneer ze worden gebruikt. Als u het gebruik van een gegevenssetdefinitie volledig wilt blokkeren, moet u deze archiveren.
Als een definitie van een gegevensset per ongeluk wordt afgeschaft, gebruikt reactivate u om deze te activeren.
reactivate
De definitie van de gegevensset opnieuw activeren.
Werkt met definities van gegevenssets die zijn afgeschaft of gearchiveerd.
reactivate()
Retouren
Type | Description |
---|---|
Geen. |
to_pandas_dataframe
Maak een Pandas-gegevensframe door de transformatiepijplijn uit te voeren die is gedefinieerd door deze definitie van de gegevensset.
to_pandas_dataframe()
Retouren
Type | Description |
---|---|
Een Pandas DataFrame. |
Opmerkingen
Retourneer een Pandas DataFrame dat volledig is gerealiseerd in het geheugen.
to_spark_dataframe
Maak een Spark DataFrame waarmee de transformatiepijplijn kan worden uitgevoerd die is gedefinieerd door deze gegevensstroom.
to_spark_dataframe()
Retouren
Type | Description |
---|---|
Een Spark DataFrame. |
Opmerkingen
Het geretourneerde Spark-dataframe is alleen een uitvoeringsplan en bevat geen gegevens, omdat Spark Dataframes te langzaam worden geëvalueerd.