AbstractDataset Classe

Referência

Classe base dos conjuntos de dados no Azure Machine Learning.

Referencie as classes TabularDatasetFactory e FileDatasetFactory para criar instâncias do conjunto de dados.

Construtor de classe AbstractDataset.

Esse construtor não deve ser invocado diretamente. O conjunto de dados destina-se a ser criado usando TabularDatasetFactory classe e FileDatasetFactory classe.

Herança: builtins.object

AbstractDataset

Construtor

AbstractDataset()

Métodos

add_tags	Adicionar pares de chave/valor ao dicionário de marcas deste conjunto de dados.
as_named_input	Forneça um nome para este conjunto de dados que será usado para recuperar o conjunto de dados materializado na execução.
get_all	Obter todos os conjuntos de dados registrados no workspace.
get_by_id	Obter um Conjunto de dados que está salvo no workspace.
get_by_name	Obter um Conjunto de dados registrado do workspace pelo nome de registro.
get_partition_key_values	Retornar valores de chave exclusivos de partition_keys. validar se partition_keys for um subconjunto válido do conjunto completo de chaves de partição, retornar valores de chave exclusivos de partition_keys, o padrão para retornar as combinações de teclas exclusivas, obtendo o conjunto completo de chaves de partição desse conjunto de dados se partition_keys for Nenhum `# get all partition key value pairs partitions = ds.get_partition_key_values() # Return [{'country': 'US', 'state': 'WA', 'partition_date': datetime('2020-1-1')}] partitions = ds.get_partition_key_values(['country']) # Return [{'country': 'US'}]`
register	Registre o conjunto de dados no workspace fornecido.
remove_tags	Remova as chaves especificadas do dicionário de marcas do conjunto de dados.
unregister_all_versions	Cancele o registro de todas as versões com o nome de registro deste conjunto de dados do workspace.
update	Execute uma atualização in-loco do conjunto de dados.

add_tags

Adicionar pares de chave/valor ao dicionário de marcas deste conjunto de dados.

add_tags(tags=None)

Parâmetros

tags: dict[str, str]

Obrigatório

O dicionário de marcas a adicionar.

Retornos

O objeto do conjunto de dados atualizado.

Tipo de retorno

Union[TabularDataset, FileDataset]

as_named_input

Forneça um nome para este conjunto de dados que será usado para recuperar o conjunto de dados materializado na execução.

as_named_input(name)

Parâmetros

name: str

Obrigatório

O nome do conjuntos de dados para a execução.

Retornos

O objeto de configuração que descreve como o conjunto de dados deve ser materializado na execução.

Tipo de retorno

DatasetConsumptionConfig

Comentários

O nome aqui só será aplicável em uma execução do Azure Machine Learning. O nome deve conter somente caracteres alfanuméricos e sublinhados para que possa ser disponibilizado como uma variável de ambiente. Você pode usar esse nome para recuperar o conjunto de dados no contexto de uma execução por meio de duas abordagens:

Variável de ambiente:

O nome será o nome da variável de ambiente e o conjunto de dados materializado será disponibilizado como o valor dela. Se o conjunto de dados for baixado ou montado, o valor será o caminho baixado/montado. Por exemplo:


   # in your job submission notebook/script:
   dataset.as_named_input('foo').as_download('/tmp/dataset')

   # in the script that will be executed in the run
   import os
   path = os.environ['foo'] # path will be /tmp/dataset

Observação

Se o conjunto de valores for definido como modo direto, o valor será a ID do conjunto de valores. Em seguida, você pode:

Recuperar o objeto DataSet fazendo Dataset.get_by_id (os. Environ [' foo '])

Run.input_datasets:

Este é um dicionário em que a chave será o nome do conjunto de dados que você especificou no método e o valor será o conjunto de dados materializado. Para o conjunto de dados baixado e montado, o valor será o caminho baixado/montado. Para o modo direto, o valor será o mesmo objeto de conjunto de dados que você especificou em seu script de envio de tarefa.


   # in your job submission notebook/script:
   dataset.as_named_input('foo') # direct mode

   # in the script that will be executed in the run
   run = Run.get_context()
   run.input_datasets['foo'] # this returns the dataset object from above.

get_all

Obter todos os conjuntos de dados registrados no workspace.

static get_all(workspace)

Parâmetros

workspace: Workspace

Obrigatório

O workspace do AzureML existente no qual os Conjuntos de dados foram registrados.

Retornos

Um dicionário de objetos TabularDataset e FileDataset com as chaves definidas segundo seu nome de registro.

Tipo de retorno

dict[str, Union[TabularDataset, FileDataset]]

get_by_id

Obter um Conjunto de dados que está salvo no workspace.

static get_by_id(workspace, id, **kwargs)

Parâmetros

workspace: Workspace

Obrigatório

O workspace do AzureML existente no qual o Conjunto de dados foi salvo.

id: str

Obrigatório

A ID do conjunto de dados.

Retornos

O objeto de conjunto de dados. Se o conjunto de registros estiver registrado, seu nome de registro e a versão também serão retornados.

Tipo de retorno

Union[TabularDataset, FileDataset]

get_by_name

Obter um Conjunto de dados registrado do workspace pelo nome de registro.

static get_by_name(workspace, name, version='latest', **kwargs)

Parâmetros

workspace: Workspace

Obrigatório

O workspace do AzureML existente no qual o Conjunto de dados foi registrado.

name: str

Obrigatório

O nome de registro.

version: int

Obrigatório

A versão do registro. O padrão é 'latest'.

Retornos

O objeto de conjunto de dados registrado.

Tipo de retorno

Union[TabularDataset, FileDataset]

get_partition_key_values

Retornar valores de chave exclusivos de partition_keys.

validar se partition_keys for um subconjunto válido do conjunto completo de chaves de partição, retornar valores de chave exclusivos de partition_keys, o padrão para retornar as combinações de teclas exclusivas, obtendo o conjunto completo de chaves de partição desse conjunto de dados se partition_keys for Nenhum


   # get all partition key value pairs
   partitions = ds.get_partition_key_values()
   # Return [{'country': 'US', 'state': 'WA', 'partition_date': datetime('2020-1-1')}]

   partitions = ds.get_partition_key_values(['country'])
   # Return [{'country': 'US'}]

get_partition_key_values(partition_keys=None)

Parâmetros

partition_keys: list[str]

Obrigatório

chaves de partição

register

Registre o conjunto de dados no workspace fornecido.

register(workspace, name, description=None, tags=None, create_new_version=False)

Parâmetros

workspace: Workspace

Obrigatório

O workspace no qual registrar o conjunto de dados.

name: str

Obrigatório

O nome com o qual registrar o conjunto de dados.

description: str

Obrigatório

Uma descrição de texto do conjunto de dados. Assume o valor padrão de Nenhum.

tags: dict[str, str]

Obrigatório

Dicionário de marcas de chave-valor a serem fornecidas ao conjunto de dados. Assume o valor padrão de Nenhum.

create_new_version: bool

Obrigatório

Booliano para registrar o conjunto de dados como uma nova versão com o nome especificado.

Retornos

O objeto de conjunto de dados registrado.

Tipo de retorno

Union[TabularDataset, FileDataset]

remove_tags

Remova as chaves especificadas do dicionário de marcas do conjunto de dados.

remove_tags(tags=None)

Parâmetros

tags: list[str]

Obrigatório

A lista de chaves a serem removidas.

Retornos

O objeto do conjunto de dados atualizado.

Tipo de retorno

Union[TabularDataset, FileDataset]

unregister_all_versions

Cancele o registro de todas as versões com o nome de registro deste conjunto de dados do workspace.

unregister_all_versions()

Comentários

A operação não altera nenhum dado de origem.

update

Execute uma atualização in-loco do conjunto de dados.

update(description=None, tags=None)

Parâmetros

description: str

Obrigatório

A nova descrição usada para o conjunto de dados. Esta descrição substitui a existente. O valor padrão é a descrição existente. Para limpar a descrição, insira uma cadeia de caracteres vazia.

tags: dict[str, str]

Obrigatório

Um dicionário de marcas com as quais atualizar o conjunto de dados. Essas novas marcas substituem as existentes no conjunto de dados. O valor padrão são as marcas existentes. Para limpar as marcas, insira um dicionário vazio.

Retornos

O objeto do conjunto de dados atualizado.

Tipo de retorno

Union[TabularDataset, FileDataset]

Construtor

Métodos

add_tags

Parâmetros

Retornos

Tipo de retorno

as_named_input

Parâmetros

Retornos

Tipo de retorno

Comentários

get_all

Parâmetros

Retornos

Tipo de retorno

get_by_id

Parâmetros

Retornos

Tipo de retorno

get_by_name

Parâmetros

Retornos

Tipo de retorno

get_partition_key_values

Parâmetros

register

Parâmetros

Retornos

Tipo de retorno

remove_tags

Parâmetros

Retornos

Tipo de retorno

unregister_all_versions

Comentários

update

Parâmetros

Retornos

Tipo de retorno

Atributos

data_changed_time

Retornos

Tipo de retorno

Comentários

description

Retornos

Tipo de retorno

id

Retornos

Tipo de retorno

name

Retornos

Tipo de retorno

partition_keys

Retornos

Tipo de retorno

tags

Retornos

Tipo de retorno

version

Retornos

Tipo de retorno

Comentários

Comentários

Recursos adicionais