AbstractDataset Třída
Základní třída datových sad ve službě Azure Machine Learning
Při vytváření instancí datové sady si projděte TabularDatasetFactory třídu a FileDatasetFactory třídu.
Třída AbstractDataset konstruktor.
Tento konstruktor by neměl být vyvolán přímo. Datová sada je určená k vytvoření pomocí TabularDatasetFactory třídy a FileDatasetFactory třídy.
- Dědičnost
-
builtins.objectAbstractDataset
Konstruktor
AbstractDataset()
Metody
add_tags |
Přidejte páry hodnot klíčů do slovníku značek této datové sady. |
as_named_input |
Zadejte název této datové sady, který se použije k načtení materializované datové sady za běhu. |
get_all |
Získejte všechny registrované datové sady v pracovním prostoru. |
get_by_id |
Získejte datovou sadu, která se uloží do pracovního prostoru. |
get_by_name |
Získejte zaregistrovanou datovou sadu z pracovního prostoru podle názvu registrace. |
get_partition_key_values |
Vrátí jedinečné hodnoty klíče partition_keys. ověřte, jestli je partition_keys platná podmnožina úplné sady klíčů oddílů, vrátit jedinečné hodnoty klíče partition_keys, ve výchozím nastavení se vrátí jedinečné kombinace klíčů tak, že se vezme úplná sada klíčů oddílů této datové sady, pokud je partition_keys žádná.
|
register |
Zaregistrujte datovou sadu do zadaného pracovního prostoru. |
remove_tags |
Odeberte zadané klíče ze slovníku značek této datové sady. |
unregister_all_versions |
Zrušte registraci všech verzí pod názvem registrace této datové sady z pracovního prostoru. |
update |
Proveďte místní aktualizaci datové sady. |
add_tags
Přidejte páry hodnot klíčů do slovníku značek této datové sady.
add_tags(tags=None)
Parametry
Návraty
Aktualizovaný objekt datové sady.
Návratový typ
as_named_input
Zadejte název této datové sady, který se použije k načtení materializované datové sady za běhu.
as_named_input(name)
Parametry
Návraty
Objekt konfigurace popisující způsob materializace datové sady při spuštění.
Návratový typ
Poznámky
Tento název bude použitelný pouze v rámci běhu služby Azure Machine Learning. Název musí obsahovat pouze alfanumerické znaky a podtržítka, aby ho bylo možné zpřístupnit jako proměnnou prostředí. Tento název můžete použít k načtení datové sady v kontextu spuštění pomocí dvou přístupů:
Proměnná prostředí:
Název bude název proměnné prostředí a materializovaná datová sada se zpřístupní jako hodnota proměnné prostředí. Pokud se datová sada stáhne nebo připojí, bude hodnotou stažená/připojená cesta. Příklad:
# in your job submission notebook/script:
dataset.as_named_input('foo').as_download('/tmp/dataset')
# in the script that will be executed in the run
import os
path = os.environ['foo'] # path will be /tmp/dataset
Poznámka
Pokud je datová sada nastavená na přímý režim, bude hodnotou ID datové sady. Pak můžete
Načtení objektu datové sady provedením Dataset.get_by_id(os.environ['foo'])
Run.input_datasets:
Toto je slovník, kde klíčem bude název datové sady, který jste zadali v této metodě, a hodnotou bude materializovaná datová sada. Pro staženou a připojenou datovou sadu bude hodnotou stažená/připojená cesta. V případě přímého režimu bude hodnotou stejný objekt datové sady, který jste zadali ve skriptu pro odeslání úlohy.
# in your job submission notebook/script:
dataset.as_named_input('foo') # direct mode
# in the script that will be executed in the run
run = Run.get_context()
run.input_datasets['foo'] # this returns the dataset object from above.
get_all
Získejte všechny registrované datové sady v pracovním prostoru.
static get_all(workspace)
Parametry
- workspace
- Workspace
Existující pracovní prostor AzureML, ve kterém byly datové sady zaregistrované.
Návraty
Slovník objektů TabularDataset a FileDataset s klíči podle názvu jejich registrace.
Návratový typ
get_by_id
Získejte datovou sadu, která se uloží do pracovního prostoru.
static get_by_id(workspace, id, **kwargs)
Parametry
- workspace
- Workspace
Existující pracovní prostor AzureML, ve kterém je uložená datová sada.
Návraty
Objekt datové sady. Pokud je datová sada zaregistrovaná, vrátí se také její registrační název a verze.
Návratový typ
get_by_name
Získejte zaregistrovanou datovou sadu z pracovního prostoru podle názvu registrace.
static get_by_name(workspace, name, version='latest', **kwargs)
Parametry
- workspace
- Workspace
Existující pracovní prostor AzureML, ve kterém byla datová sada zaregistrovaná.
Návraty
Zaregistrovaný objekt datové sady.
Návratový typ
get_partition_key_values
Vrátí jedinečné hodnoty klíče partition_keys.
ověřte, jestli je partition_keys platná podmnožina úplné sady klíčů oddílů, vrátit jedinečné hodnoty klíče partition_keys, ve výchozím nastavení se vrátí jedinečné kombinace klíčů tak, že se vezme úplná sada klíčů oddílů této datové sady, pokud je partition_keys žádná.
# get all partition key value pairs
partitions = ds.get_partition_key_values()
# Return [{'country': 'US', 'state': 'WA', 'partition_date': datetime('2020-1-1')}]
partitions = ds.get_partition_key_values(['country'])
# Return [{'country': 'US'}]
get_partition_key_values(partition_keys=None)
Parametry
register
Zaregistrujte datovou sadu do zadaného pracovního prostoru.
register(workspace, name, description=None, tags=None, create_new_version=False)
Parametry
Slovník značek klíčových hodnot pro datovou sadu. Výchozí hodnota je Žádná.
- create_new_version
- bool
Logická hodnota pro registraci datové sady jako nové verze pod zadaným názvem.
Návraty
Zaregistrovaný objekt datové sady.
Návratový typ
remove_tags
Odeberte zadané klíče ze slovníku značek této datové sady.
remove_tags(tags=None)
Parametry
Návraty
Aktualizovaný objekt datové sady.
Návratový typ
unregister_all_versions
Zrušte registraci všech verzí pod názvem registrace této datové sady z pracovního prostoru.
unregister_all_versions()
Poznámky
Operace nezmění žádná zdrojová data.
update
Proveďte místní aktualizaci datové sady.
update(description=None, tags=None)
Parametry
- description
- str
Nový popis, který se má použít pro datovou sadu. Tento popis nahrazuje existující popis. Výchozí hodnota je existující popis. Pokud chcete vymazat popis, zadejte prázdný řetězec.
Slovník značek, pomocí které se má datová sada aktualizovat. Tyto značky nahrazují existující značky pro datovou sadu. Výchozí hodnota je existující značky. Pokud chcete značky vymazat, zadejte prázdný slovník.
Návraty
Aktualizovaný objekt datové sady.
Návratový typ
Atributy
data_changed_time
Vrátí čas změny zdrojových dat.
Návraty
Čas, kdy došlo u zdrojových dat k poslední změně.
Návratový typ
Poznámky
Čas změny dat je k dispozici pro souborový zdroj dat. Pokud zdroj dat není podporován pro kontrolu, kdy došlo ke změně, nebude vrácena žádná.
description
id
Vrátí identifikátor datové sady.
Návraty
ID datové sady. Pokud se datová sada neuloží do žádného pracovního prostoru, id bude None (Žádný).
Návratový typ
name
partition_keys
tags
version
Váš názor
https://aka.ms/ContentUserFeedback.
Připravujeme: V průběhu roku 2024 budeme postupně vyřazovat Problémy GitHubu jako mechanismus zpětné vazby pro obsah a nahradíme ho novým systémem zpětné vazby. Další informace najdete tady:Odeslat a zobrazit názory pro