DatasetDefinition Třída
Definuje řadu kroků, které určují, jak číst a transformovat data v datové sadě.
Poznámka
Tato třída je zastaralá. Další informace naleznete v tématu https://aka.ms/dataset-deprecation.
Datová sada zaregistrovaná v pracovním prostoru Azure Machine Learning může mít několik definic, z nichž každá se vytvoří voláním update_definition. Každá definice má jedinečný identifikátor. Aktuální definice je poslední vytvořená definice.
Pro neregistrované datové sady existuje pouze jedna definice.
Definice datových sad podporují všechny transformace uvedené pro <xref:azureml.dataprep.Dataflow> třídu: viz http://aka.ms/azureml/howto/transformdata. Další informace o definicích datových sad najdete na .https://aka.ms/azureml/howto/versiondata
Inicializujte objekt definice datové sady.
- Dědičnost
-
azureml.dataprep.api.engineless_dataflow.EnginelessDataflowDatasetDefinition
Konstruktor
DatasetDefinition(workspace=None, dataset_id=None, version_id=None, dataflow=None, dataflow_json=None, notes=None, etag=None, created_time=None, modified_time=None, state=None, deprecated_by_dataset_id=None, deprecated_by_definition_version=None, data_path=None, dataset=None, file_type='Unknown')
Parametry
- dataflow_json
Kód JSON toku dat.
Metody
archive |
Archivace definice datové sady |
create_snapshot |
Vytvořte snímek registrované datové sady. |
deprecate |
Vyřadíte datovou sadu s ukazatelem na novou datovou sadu. |
reactivate |
Znovu aktivujte definici datové sady. Funguje s definicemi datových sad, které jsou zastaralé nebo archivované. |
to_pandas_dataframe |
Vytvořte datový rámec Pandas spuštěním transformačního kanálu definovaného touto definicí datové sady. |
to_spark_dataframe |
Vytvořte datový rámec Sparku, který může spustit kanál transformace definovaný tímto tokem dat. |
archive
Archivace definice datové sady
archive()
Návraty
Žádné
Návratový typ
Poznámky
Po archivaci dojde při každém pokusu o načtení datové sady k chybě. Pokud se archivuje omylem, aktivujte ho pomocí příkazu reactivate .
create_snapshot
Vytvořte snímek registrované datové sady.
create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)
Parametry
- compute_target
- ComputeTarget nebo str
Cílový výpočetní objekt pro vytvoření profilu snímku. Pokud tento parametr vynecháte, použije se místní výpočetní prostředí.
- create_data_snapshot
- bool
Pokud má hodnotu True, vytvoří se materializovaná kopie dat.
- target_datastore
- Union[AbstractAzureStorageDatastore, str]
Cílové úložiště dat, kam chcete uložit snímek. Pokud tento parametr vynecháte, vytvoří se snímek ve výchozím úložišti pracovního prostoru.
Návraty
A DatasetSnapshot objekt.
Návratový typ
Poznámky
Snímky zachycují souhrnnou statistiku k určitému bodu v čase podkladových dat a volitelnou kopii samotných dat. Další informace o vytváření snímků najdete na .https://aka.ms/azureml/howto/createsnapshots
deprecate
Vyřadíte datovou sadu s ukazatelem na novou datovou sadu.
deprecate(deprecate_by_dataset_id, deprecated_by_definition_version=None)
Parametry
- deprecate_by_dataset_id
- uuid
ID datové sady, které je zodpovědné za vyřazení aktuální datové sady.
- deprecated_by_definition_version
- str
Verze definice datové sady, která je zodpovědná za vyřazení aktuální definice datové sady.
Návraty
Žádné
Návratový typ
Poznámky
Zastaralé definice datových sad budou protokolovat upozornění při jejich spotřebování. Pokud chcete zcela zablokovat využití definice datové sady, archivujte ji.
Pokud je definice datové sady omylem zastaralá, aktivujte ji pomocí příkazu reactivate .
reactivate
Znovu aktivujte definici datové sady.
Funguje s definicemi datových sad, které jsou zastaralé nebo archivované.
reactivate()
Návraty
Žádné
Návratový typ
to_pandas_dataframe
Vytvořte datový rámec Pandas spuštěním transformačního kanálu definovaného touto definicí datové sady.
to_pandas_dataframe()
Návraty
Datový rámec Pandas.
Návratový typ
Poznámky
Vrátí datový rámec Pandas plně materializovaný v paměti.
to_spark_dataframe
Vytvořte datový rámec Sparku, který může spustit kanál transformace definovaný tímto tokem dat.
to_spark_dataframe()
Návraty
Datový rámec Sparku.
Návratový typ
Poznámky
Vrácený datový rámec Sparku je pouze plánem provádění a ve skutečnosti neobsahuje žádná data, protože datové rámce Sparku se líně vyhodnocují.
Váš názor
https://aka.ms/ContentUserFeedback.
Připravujeme: V průběhu roku 2024 budeme postupně vyřazovat problémy z GitHub coby mechanismus zpětné vazby pro obsah a nahrazovat ho novým systémem zpětné vazby. Další informace naleznete v tématu:Odeslat a zobrazit názory pro