AbstractDataset Klas
Basisklasse van gegevenssets in Azure Machine Learning.
Verwijs naar TabularDatasetFactory klasse en FileDatasetFactory klasse om exemplaren van gegevenssets te maken.
Klasse AbstractDataset-constructor.
Deze constructor mag niet rechtstreeks worden aangeroepen. De gegevensset is bedoeld om te worden gemaakt met behulp van TabularDatasetFactory klasse en FileDatasetFactory klasse.
- Overname
-
builtins.objectAbstractDataset
Constructor
AbstractDataset()
Methoden
add_tags |
Voeg sleutelwaardeparen toe aan de woordenlijst met tags van deze gegevensset. |
as_named_input |
Geef een naam op voor deze gegevensset die wordt gebruikt om de gerealiseerde gegevensset in de uitvoering op te halen. |
get_all |
Haal alle geregistreerde gegevenssets op in de werkruimte. |
get_by_id |
Haal een gegevensset op die wordt opgeslagen in de werkruimte. |
get_by_name |
Haal een geregistreerde gegevensset op uit de werkruimte op basis van de registratienaam. |
get_partition_key_values |
Retourneer unieke sleutelwaarden van partition_keys. controleer of partition_keys een geldige subset van de volledige set partitiesleutels is, retourneer unieke sleutelwaarden van partition_keys. Standaard worden de unieke sleutelcombinaties geretourneerd door de volledige set partitiesleutels van deze gegevensset te nemen als partition_keys Geen is
|
register |
Registreer de gegevensset bij de opgegeven werkruimte. |
remove_tags |
Verwijder de opgegeven sleutels uit de tagswoordenlijst van deze gegevensset. |
unregister_all_versions |
Hef de registratie van alle versies onder de registratienaam van deze gegevensset op in de werkruimte. |
update |
Voer een in-place update van de gegevensset uit. |
add_tags
Voeg sleutelwaardeparen toe aan de woordenlijst met tags van deze gegevensset.
add_tags(tags=None)
Parameters
Name | Description |
---|---|
tags
Vereist
|
De woordenlijst met tags die u wilt toevoegen. |
Retouren
Type | Description |
---|---|
Het bijgewerkte gegevenssetobject. |
as_named_input
Geef een naam op voor deze gegevensset die wordt gebruikt om de gerealiseerde gegevensset in de uitvoering op te halen.
as_named_input(name)
Parameters
Name | Description |
---|---|
name
Vereist
|
De naam van de gegevensset voor de uitvoering. |
Retouren
Type | Description |
---|---|
Het configuratieobject dat beschrijft hoe de gegevensset in de uitvoering moet worden gerealiseerd. |
Opmerkingen
De naam hier is alleen van toepassing binnen een Azure Machine Learning-uitvoering. De naam mag alleen alfanumerieke tekens en onderstrepingstekens bevatten, zodat deze beschikbaar kan worden gemaakt als een omgevingsvariabele. U kunt deze naam gebruiken om de gegevensset op te halen in de context van een uitvoering met behulp van twee benaderingen:
Omgevingsvariabele:
De naam is de naam van de omgevingsvariabele en de gerealiseerde gegevensset wordt beschikbaar gesteld als de waarde van de omgevingsvariabele. Als de gegevensset is gedownload of gekoppeld, is de waarde het gedownloade/gekoppelde pad. Bijvoorbeeld:
# in your job submission notebook/script:
dataset.as_named_input('foo').as_download('/tmp/dataset')
# in the script that will be executed in the run
import os
path = os.environ['foo'] # path will be /tmp/dataset
Notitie
Als de gegevensset is ingesteld op de directe modus, is de waarde de gegevensset-id. U kunt dan
het gegevenssetobject ophalen door Dataset.get_by_id(os.environ['foo'])
Run.input_datasets:
Dit is een woordenlijst waarbij de sleutel de naam van de gegevensset is die u in deze methode hebt opgegeven en de waarde de gerealiseerde gegevensset is. Voor gedownloade en gekoppelde gegevensset is de waarde het gedownloade/gekoppelde pad. Voor de directe modus is de waarde hetzelfde gegevenssetobject dat u hebt opgegeven in het script voor het indienen van taken.
# in your job submission notebook/script:
dataset.as_named_input('foo') # direct mode
# in the script that will be executed in the run
run = Run.get_context()
run.input_datasets['foo'] # this returns the dataset object from above.
get_all
Haal alle geregistreerde gegevenssets op in de werkruimte.
static get_all(workspace)
Parameters
Name | Description |
---|---|
workspace
Vereist
|
De bestaande AzureML-werkruimte waarin de gegevenssets zijn geregistreerd. |
Retouren
Type | Description |
---|---|
Een woordenlijst met TabularDataset- en FileDataset-objecten, gesleuteld op hun registratienaam. |
get_by_id
Haal een gegevensset op die wordt opgeslagen in de werkruimte.
static get_by_id(workspace, id, **kwargs)
Parameters
Name | Description |
---|---|
workspace
Vereist
|
De bestaande AzureML-werkruimte waarin de gegevensset wordt opgeslagen. |
id
Vereist
|
De id van de gegevensset. |
Retouren
Type | Description |
---|---|
Het gegevenssetobject. Als de gegevensset is geregistreerd, worden de registratienaam en -versie ook geretourneerd. |
get_by_name
Haal een geregistreerde gegevensset op uit de werkruimte op basis van de registratienaam.
static get_by_name(workspace, name, version='latest', **kwargs)
Parameters
Name | Description |
---|---|
workspace
Vereist
|
De bestaande AzureML-werkruimte waarin de gegevensset is geregistreerd. |
name
Vereist
|
De registratienaam. |
version
Vereist
|
De registratieversie. De standaardwaarde is 'nieuwste'. |
Retouren
Type | Description |
---|---|
Het geregistreerde gegevenssetobject. |
get_partition_key_values
Retourneer unieke sleutelwaarden van partition_keys.
controleer of partition_keys een geldige subset van de volledige set partitiesleutels is, retourneer unieke sleutelwaarden van partition_keys. Standaard worden de unieke sleutelcombinaties geretourneerd door de volledige set partitiesleutels van deze gegevensset te nemen als partition_keys Geen is
# get all partition key value pairs
partitions = ds.get_partition_key_values()
# Return [{'country': 'US', 'state': 'WA', 'partition_date': datetime('2020-1-1')}]
partitions = ds.get_partition_key_values(['country'])
# Return [{'country': 'US'}]
get_partition_key_values(partition_keys=None)
Parameters
Name | Description |
---|---|
partition_keys
Vereist
|
partitiesleutels |
register
Registreer de gegevensset bij de opgegeven werkruimte.
register(workspace, name, description=None, tags=None, create_new_version=False)
Parameters
Name | Description |
---|---|
workspace
Vereist
|
De werkruimte voor het registreren van de gegevensset. |
name
Vereist
|
De naam waarmee de gegevensset moet worden geregistreerd. |
description
Vereist
|
Een tekstbeschrijving van de gegevensset. De standaardwaarde is Geen. |
tags
Vereist
|
Woordenlijst met sleutelwaardetags voor de gegevensset. De standaardwaarde is Geen. |
create_new_version
Vereist
|
Booleaanse waarde voor het registreren van de gegevensset als een nieuwe versie onder de opgegeven naam. |
Retouren
Type | Description |
---|---|
Het geregistreerde gegevenssetobject. |
remove_tags
Verwijder de opgegeven sleutels uit de tagswoordenlijst van deze gegevensset.
remove_tags(tags=None)
Parameters
Name | Description |
---|---|
tags
Vereist
|
De lijst met sleutels die u wilt verwijderen. |
Retouren
Type | Description |
---|---|
Het bijgewerkte gegevenssetobject. |
unregister_all_versions
Hef de registratie van alle versies onder de registratienaam van deze gegevensset op in de werkruimte.
unregister_all_versions()
Opmerkingen
De bewerking wijzigt geen brongegevens.
update
Voer een in-place update van de gegevensset uit.
update(description=None, tags=None)
Parameters
Name | Description |
---|---|
description
Vereist
|
De nieuwe beschrijving die moet worden gebruikt voor de gegevensset. Deze beschrijving vervangt de bestaande beschrijving. Standaard ingesteld op bestaande beschrijving. Als u de beschrijving wilt wissen, voert u een lege tekenreeks in. |
tags
Vereist
|
Een woordenlijst met tags waarmee u de gegevensset kunt bijwerken. Deze tags vervangen bestaande tags voor de gegevensset. Standaard ingesteld op bestaande tags. Als u tags wilt wissen, voert u een lege woordenlijst in. |
Retouren
Type | Description |
---|---|
Het bijgewerkte gegevenssetobject. |
Kenmerken
data_changed_time
Retourneer de gewijzigde tijd van de brongegevens.
Retouren
Type | Description |
---|---|
Het tijdstip waarop de meest recente wijziging is opgetreden in de brongegevens. |
Opmerkingen
De tijd waarop gegevens zijn gewijzigd, is beschikbaar voor een gegevensbron op basis van een bestand. Geen wordt geretourneerd wanneer de gegevensbron niet wordt ondersteund voor het controleren wanneer de wijziging is opgetreden.
description
Retourneer de beschrijving van de registratie.
Retouren
Type | Description |
---|---|
Beschrijving van gegevensset. |
id
Retourneer de id van de gegevensset.
Retouren
Type | Description |
---|---|
Gegevensset-id. Als de gegevensset niet is opgeslagen in een werkruimte, is de id Geen. |