Sdílet prostřednictvím


DatasetDefinition Třída

Definuje řadu kroků, které určují, jak číst a transformovat data v datové sadě.

Poznámka

Tato třída je zastaralá. Další informace naleznete v tématu https://aka.ms/dataset-deprecation.

Datová sada zaregistrovaná v pracovním prostoru Azure Machine Learning může mít několik definic, z nichž každá se vytvoří voláním update_definition. Každá definice má jedinečný identifikátor. Aktuální definice je poslední vytvořená definice.

Pro neregistrované datové sady existuje pouze jedna definice.

Definice datových sad podporují všechny transformace uvedené pro <xref:azureml.dataprep.Dataflow> třídu: viz http://aka.ms/azureml/howto/transformdata. Další informace o definicích datových sad najdete na .https://aka.ms/azureml/howto/versiondata

Inicializujte objekt definice datové sady.

Dědičnost
azureml.dataprep.api.engineless_dataflow.EnginelessDataflow
DatasetDefinition

Konstruktor

DatasetDefinition(workspace=None, dataset_id=None, version_id=None, dataflow=None, dataflow_json=None, notes=None, etag=None, created_time=None, modified_time=None, state=None, deprecated_by_dataset_id=None, deprecated_by_definition_version=None, data_path=None, dataset=None, file_type='Unknown')

Parametry

workspace
str
Vyžadováno

Pracovní prostor, ve který je datová sada zaregistrovaná.

dataset_id
str
Vyžadováno

Identifikátor datové sady.

version_id
str
Vyžadováno

Verze definice.

dataflow
str
Vyžadováno

Objekt toku dat.

dataflow_json
Vyžadováno

Kód JSON toku dat.

notes
str
Vyžadováno

Volitelné informace o definici.

etag
str
Vyžadováno

Etag.

created_time
datetime
Vyžadováno

Čas vytvoření definice.

modified_time
datetime
Vyžadováno

Čas poslední změny definice.

deprecated_by_dataset_id
str
Vyžadováno

ID datové sady, která tuto definici zastarává.

deprecated_by_definition_version
str
Vyžadováno

Verze definice, která tuto definici zastarává.

data_path
DataPath
Vyžadováno

Cesta k datům.

dataset
Dataset
Vyžadováno

Nadřazený objekt Dataset.

Metody

archive

Archivace definice datové sady

create_snapshot

Vytvořte snímek registrované datové sady.

deprecate

Vyřadíte datovou sadu s ukazatelem na novou datovou sadu.

reactivate

Znovu aktivujte definici datové sady.

Funguje s definicemi datových sad, které jsou zastaralé nebo archivované.

to_pandas_dataframe

Vytvořte datový rámec Pandas spuštěním transformačního kanálu definovaného touto definicí datové sady.

to_spark_dataframe

Vytvořte datový rámec Sparku, který může spustit kanál transformace definovaný tímto tokem dat.

archive

Archivace definice datové sady

archive()

Návraty

Žádné

Návratový typ

Poznámky

Po archivaci dojde při každém pokusu o načtení datové sady k chybě. Pokud se archivuje omylem, aktivujte ho pomocí příkazu reactivate .

create_snapshot

Vytvořte snímek registrované datové sady.

create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)

Parametry

snapshot_name
str
Vyžadováno

Název snímku. Názvy snímků by měly být v rámci datové sady jedinečné.

compute_target
ComputeTarget nebo str
výchozí hodnota: None

Cílový výpočetní objekt pro vytvoření profilu snímku. Pokud tento parametr vynecháte, použije se místní výpočetní prostředí.

create_data_snapshot
bool
výchozí hodnota: False

Pokud má hodnotu True, vytvoří se materializovaná kopie dat.

target_datastore
Union[AbstractAzureStorageDatastore, str]
výchozí hodnota: None

Cílové úložiště dat, kam chcete uložit snímek. Pokud tento parametr vynecháte, vytvoří se snímek ve výchozím úložišti pracovního prostoru.

Návraty

A DatasetSnapshot objekt.

Návratový typ

Poznámky

Snímky zachycují souhrnnou statistiku k určitému bodu v čase podkladových dat a volitelnou kopii samotných dat. Další informace o vytváření snímků najdete na .https://aka.ms/azureml/howto/createsnapshots

deprecate

Vyřadíte datovou sadu s ukazatelem na novou datovou sadu.

deprecate(deprecate_by_dataset_id, deprecated_by_definition_version=None)

Parametry

deprecate_by_dataset_id
uuid
Vyžadováno

ID datové sady, které je zodpovědné za vyřazení aktuální datové sady.

deprecated_by_definition_version
str
výchozí hodnota: None

Verze definice datové sady, která je zodpovědná za vyřazení aktuální definice datové sady.

Návraty

Žádné

Návratový typ

Poznámky

Zastaralé definice datových sad budou protokolovat upozornění při jejich spotřebování. Pokud chcete zcela zablokovat využití definice datové sady, archivujte ji.

Pokud je definice datové sady omylem zastaralá, aktivujte ji pomocí příkazu reactivate .

reactivate

Znovu aktivujte definici datové sady.

Funguje s definicemi datových sad, které jsou zastaralé nebo archivované.

reactivate()

Návraty

Žádné

Návratový typ

to_pandas_dataframe

Vytvořte datový rámec Pandas spuštěním transformačního kanálu definovaného touto definicí datové sady.

to_pandas_dataframe()

Návraty

Datový rámec Pandas.

Návratový typ

Poznámky

Vrátí datový rámec Pandas plně materializovaný v paměti.

to_spark_dataframe

Vytvořte datový rámec Sparku, který může spustit kanál transformace definovaný tímto tokem dat.

to_spark_dataframe()

Návraty

Datový rámec Sparku.

Návratový typ

Poznámky

Vrácený datový rámec Sparku je pouze plánem provádění a ve skutečnosti neobsahuje žádná data, protože datové rámce Sparku se líně vyhodnocují.