DatasetDefinition Třída

Reference

Definuje řadu kroků, které určují, jak číst a transformovat data v datové sadě.

Poznámka

Tato třída je zastaralá. Další informace naleznete v tématu https://aka.ms/dataset-deprecation.

Datová sada zaregistrovaná v pracovním prostoru Azure Machine Learning může mít několik definic, z nichž každá se vytvoří voláním update_definition. Každá definice má jedinečný identifikátor. Aktuální definice je poslední vytvořená definice.

Pro neregistrované datové sady existuje pouze jedna definice.

Definice datových sad podporují všechny transformace uvedené pro <xref:azureml.dataprep.Dataflow> třídu: viz http://aka.ms/azureml/howto/transformdata. Další informace o definicích datových sad najdete na .https://aka.ms/azureml/howto/versiondata

Inicializujte objekt definice datové sady.

Dědičnost: azureml.dataprep.api.engineless_dataflow.EnginelessDataflow

DatasetDefinition

Konstruktor

DatasetDefinition(workspace=None, dataset_id=None, version_id=None, dataflow=None, dataflow_json=None, notes=None, etag=None, created_time=None, modified_time=None, state=None, deprecated_by_dataset_id=None, deprecated_by_definition_version=None, data_path=None, dataset=None, file_type='Unknown')

Parametry

workspace: str

Vyžadováno

Pracovní prostor, ve který je datová sada zaregistrovaná.

dataset_id: str

Vyžadováno

Identifikátor datové sady.

version_id: str

Vyžadováno

Verze definice.

dataflow: str

Vyžadováno

Objekt toku dat.

dataflow_json

Vyžadováno

Kód JSON toku dat.

notes: str

Vyžadováno

Volitelné informace o definici.

etag: str

Vyžadováno

Etag.

created_time: datetime

Vyžadováno

Čas vytvoření definice.

modified_time: datetime

Vyžadováno

Čas poslední změny definice.

deprecated_by_dataset_id: str

Vyžadováno

ID datové sady, která tuto definici zastarává.

deprecated_by_definition_version: str

Vyžadováno

Verze definice, která tuto definici zastarává.

data_path: DataPath

Vyžadováno

Cesta k datům.

dataset: Dataset

Vyžadováno

Nadřazený objekt Dataset.

Metody

archive	Archivace definice datové sady
create_snapshot	Vytvořte snímek registrované datové sady.
deprecate	Vyřadíte datovou sadu s ukazatelem na novou datovou sadu.
reactivate	Znovu aktivujte definici datové sady. Funguje s definicemi datových sad, které jsou zastaralé nebo archivované.
to_pandas_dataframe	Vytvořte datový rámec Pandas spuštěním transformačního kanálu definovaného touto definicí datové sady.
to_spark_dataframe	Vytvořte datový rámec Sparku, který může spustit kanál transformace definovaný tímto tokem dat.

create_snapshot

Vytvořte snímek registrované datové sady.

create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)

Parametry

snapshot_name: str

Vyžadováno

Název snímku. Názvy snímků by měly být v rámci datové sady jedinečné.

compute_target: ComputeTarget nebo str

výchozí hodnota: None

Cílový výpočetní objekt pro vytvoření profilu snímku. Pokud tento parametr vynecháte, použije se místní výpočetní prostředí.

create_data_snapshot: bool

výchozí hodnota: False

Pokud má hodnotu True, vytvoří se materializovaná kopie dat.

target_datastore: Union[AbstractAzureStorageDatastore, str]

výchozí hodnota: None

Cílové úložiště dat, kam chcete uložit snímek. Pokud tento parametr vynecháte, vytvoří se snímek ve výchozím úložišti pracovního prostoru.

Návraty

A DatasetSnapshot objekt.

Návratový typ

DatasetSnapshot

Poznámky

Snímky zachycují souhrnnou statistiku k určitému bodu v čase podkladových dat a volitelnou kopii samotných dat. Další informace o vytváření snímků najdete na .https://aka.ms/azureml/howto/createsnapshots

deprecate

Vyřadíte datovou sadu s ukazatelem na novou datovou sadu.

deprecate(deprecate_by_dataset_id, deprecated_by_definition_version=None)

Parametry

deprecate_by_dataset_id: uuid

Vyžadováno

ID datové sady, které je zodpovědné za vyřazení aktuální datové sady.

deprecated_by_definition_version: str

výchozí hodnota: None

Verze definice datové sady, která je zodpovědná za vyřazení aktuální definice datové sady.

Návraty

Žádné

Návratový typ

None

Poznámky

Zastaralé definice datových sad budou protokolovat upozornění při jejich spotřebování. Pokud chcete zcela zablokovat využití definice datové sady, archivujte ji.

Pokud je definice datové sady omylem zastaralá, aktivujte ji pomocí příkazu reactivate .

reactivate

Znovu aktivujte definici datové sady.

Funguje s definicemi datových sad, které jsou zastaralé nebo archivované.

reactivate()

Návraty

Žádné

Návratový typ

None

to_pandas_dataframe

Vytvořte datový rámec Pandas spuštěním transformačního kanálu definovaného touto definicí datové sady.

to_pandas_dataframe()

Návraty

Datový rámec Pandas.

Návratový typ

DataFrame

Poznámky

Vrátí datový rámec Pandas plně materializovaný v paměti.

to_spark_dataframe

Vytvořte datový rámec Sparku, který může spustit kanál transformace definovaný tímto tokem dat.

to_spark_dataframe()

Návraty

Datový rámec Sparku.

Návratový typ

DataFrame

Poznámky

Vrácený datový rámec Sparku je pouze plánem provádění a ve skutečnosti neobsahuje žádná data, protože datové rámce Sparku se líně vyhodnocují.

Sdílet prostřednictvím

DatasetDefinition Třída

Konstruktor

Parametry

Metody

archive

Návraty

Návratový typ

Poznámky

create_snapshot

Parametry

Návraty

Návratový typ

Poznámky

deprecate

Parametry

Návraty

Návratový typ

Poznámky

reactivate

Návraty

Návratový typ

to_pandas_dataframe

Návraty

Návratový typ

Poznámky

to_spark_dataframe

Návraty

Návratový typ

Poznámky

Váš názor

Váš názor

Další materiály