AbstractDataset Classe

Classe base dos conjuntos de dados no Azure Machine Learning.

Referencie as classes TabularDatasetFactory e FileDatasetFactory para criar instâncias do conjunto de dados.

Construtor de classe AbstractDataset.

Esse construtor não deve ser invocado diretamente. O conjunto de dados destina-se a ser criado usando TabularDatasetFactory classe e FileDatasetFactory classe.

Herança
builtins.object
AbstractDataset

Construtor

AbstractDataset()

Métodos

add_tags

Adicionar pares de chave/valor ao dicionário de marcas deste conjunto de dados.

as_named_input

Forneça um nome para este conjunto de dados que será usado para recuperar o conjunto de dados materializado na execução.

get_all

Obter todos os conjuntos de dados registrados no workspace.

get_by_id

Obter um Conjunto de dados que está salvo no workspace.

get_by_name

Obter um Conjunto de dados registrado do workspace pelo nome de registro.

get_partition_key_values

Retornar valores de chave exclusivos de partition_keys.

validar se partition_keys for um subconjunto válido do conjunto completo de chaves de partição, retornar valores de chave exclusivos de partition_keys, o padrão para retornar as combinações de teclas exclusivas, obtendo o conjunto completo de chaves de partição desse conjunto de dados se partition_keys for Nenhum


   # get all partition key value pairs
   partitions = ds.get_partition_key_values()
   # Return [{'country': 'US', 'state': 'WA', 'partition_date': datetime('2020-1-1')}]

   partitions = ds.get_partition_key_values(['country'])
   # Return [{'country': 'US'}]
register

Registre o conjunto de dados no workspace fornecido.

remove_tags

Remova as chaves especificadas do dicionário de marcas do conjunto de dados.

unregister_all_versions

Cancele o registro de todas as versões com o nome de registro deste conjunto de dados do workspace.

update

Execute uma atualização in-loco do conjunto de dados.

add_tags

Adicionar pares de chave/valor ao dicionário de marcas deste conjunto de dados.

add_tags(tags=None)

Parâmetros

tags
dict[str, str]
Obrigatório

O dicionário de marcas a adicionar.

Retornos

O objeto do conjunto de dados atualizado.

Tipo de retorno

as_named_input

Forneça um nome para este conjunto de dados que será usado para recuperar o conjunto de dados materializado na execução.

as_named_input(name)

Parâmetros

name
str
Obrigatório

O nome do conjuntos de dados para a execução.

Retornos

O objeto de configuração que descreve como o conjunto de dados deve ser materializado na execução.

Tipo de retorno

Comentários

O nome aqui só será aplicável em uma execução do Azure Machine Learning. O nome deve conter somente caracteres alfanuméricos e sublinhados para que possa ser disponibilizado como uma variável de ambiente. Você pode usar esse nome para recuperar o conjunto de dados no contexto de uma execução por meio de duas abordagens:

  • Variável de ambiente:

    O nome será o nome da variável de ambiente e o conjunto de dados materializado será disponibilizado como o valor dela. Se o conjunto de dados for baixado ou montado, o valor será o caminho baixado/montado. Por exemplo:


   # in your job submission notebook/script:
   dataset.as_named_input('foo').as_download('/tmp/dataset')

   # in the script that will be executed in the run
   import os
   path = os.environ['foo'] # path will be /tmp/dataset

Observação

Se o conjunto de valores for definido como modo direto, o valor será a ID do conjunto de valores. Em seguida, você pode:

Recuperar o objeto DataSet fazendo Dataset.get_by_id (os. Environ [' foo '])

  • Run.input_datasets:

    Este é um dicionário em que a chave será o nome do conjunto de dados que você especificou no método e o valor será o conjunto de dados materializado. Para o conjunto de dados baixado e montado, o valor será o caminho baixado/montado. Para o modo direto, o valor será o mesmo objeto de conjunto de dados que você especificou em seu script de envio de tarefa.


   # in your job submission notebook/script:
   dataset.as_named_input('foo') # direct mode

   # in the script that will be executed in the run
   run = Run.get_context()
   run.input_datasets['foo'] # this returns the dataset object from above.

get_all

Obter todos os conjuntos de dados registrados no workspace.

static get_all(workspace)

Parâmetros

workspace
Workspace
Obrigatório

O workspace do AzureML existente no qual os Conjuntos de dados foram registrados.

Retornos

Um dicionário de objetos TabularDataset e FileDataset com as chaves definidas segundo seu nome de registro.

Tipo de retorno

get_by_id

Obter um Conjunto de dados que está salvo no workspace.

static get_by_id(workspace, id, **kwargs)

Parâmetros

workspace
Workspace
Obrigatório

O workspace do AzureML existente no qual o Conjunto de dados foi salvo.

id
str
Obrigatório

A ID do conjunto de dados.

Retornos

O objeto de conjunto de dados. Se o conjunto de registros estiver registrado, seu nome de registro e a versão também serão retornados.

Tipo de retorno

get_by_name

Obter um Conjunto de dados registrado do workspace pelo nome de registro.

static get_by_name(workspace, name, version='latest', **kwargs)

Parâmetros

workspace
Workspace
Obrigatório

O workspace do AzureML existente no qual o Conjunto de dados foi registrado.

name
str
Obrigatório

O nome de registro.

version
int
Obrigatório

A versão do registro. O padrão é 'latest'.

Retornos

O objeto de conjunto de dados registrado.

Tipo de retorno

get_partition_key_values

Retornar valores de chave exclusivos de partition_keys.

validar se partition_keys for um subconjunto válido do conjunto completo de chaves de partição, retornar valores de chave exclusivos de partition_keys, o padrão para retornar as combinações de teclas exclusivas, obtendo o conjunto completo de chaves de partição desse conjunto de dados se partition_keys for Nenhum


   # get all partition key value pairs
   partitions = ds.get_partition_key_values()
   # Return [{'country': 'US', 'state': 'WA', 'partition_date': datetime('2020-1-1')}]

   partitions = ds.get_partition_key_values(['country'])
   # Return [{'country': 'US'}]
get_partition_key_values(partition_keys=None)

Parâmetros

partition_keys
list[str]
Obrigatório

chaves de partição

register

Registre o conjunto de dados no workspace fornecido.

register(workspace, name, description=None, tags=None, create_new_version=False)

Parâmetros

workspace
Workspace
Obrigatório

O workspace no qual registrar o conjunto de dados.

name
str
Obrigatório

O nome com o qual registrar o conjunto de dados.

description
str
Obrigatório

Uma descrição de texto do conjunto de dados. Assume o valor padrão de Nenhum.

tags
dict[str, str]
Obrigatório

Dicionário de marcas de chave-valor a serem fornecidas ao conjunto de dados. Assume o valor padrão de Nenhum.

create_new_version
bool
Obrigatório

Booliano para registrar o conjunto de dados como uma nova versão com o nome especificado.

Retornos

O objeto de conjunto de dados registrado.

Tipo de retorno

remove_tags

Remova as chaves especificadas do dicionário de marcas do conjunto de dados.

remove_tags(tags=None)

Parâmetros

tags
list[str]
Obrigatório

A lista de chaves a serem removidas.

Retornos

O objeto do conjunto de dados atualizado.

Tipo de retorno

unregister_all_versions

Cancele o registro de todas as versões com o nome de registro deste conjunto de dados do workspace.

unregister_all_versions()

Comentários

A operação não altera nenhum dado de origem.

update

Execute uma atualização in-loco do conjunto de dados.

update(description=None, tags=None)

Parâmetros

description
str
Obrigatório

A nova descrição usada para o conjunto de dados. Esta descrição substitui a existente. O valor padrão é a descrição existente. Para limpar a descrição, insira uma cadeia de caracteres vazia.

tags
dict[str, str]
Obrigatório

Um dicionário de marcas com as quais atualizar o conjunto de dados. Essas novas marcas substituem as existentes no conjunto de dados. O valor padrão são as marcas existentes. Para limpar as marcas, insira um dicionário vazio.

Retornos

O objeto do conjunto de dados atualizado.

Tipo de retorno

Atributos

data_changed_time

Retornar a hora de alteração dos dados de origem.

Retornos

A hora em que a alteração mais recente aconteceu nos dados de origem.

Tipo de retorno

Comentários

A hora da alteração de dados está disponível para a fonte de dados baseada em arquivo. Nenhum será retornado quando a fonte de dados não tiver suporte para verificar quando a alteração ocorreu.

description

Retornar a descrição do registro.

Retornos

Descrição do conjunto de dados.

Tipo de retorno

str

id

O identificador exclusivo do conjunto de dados.

Retornos

ID do conjunto de dados. Se o conjunto de dados não for salvo em nenhum workspace, a ID será Nenhum.

Tipo de retorno

str

name

Retornar o nome do registro.

Retornos

Nome do conjunto de dados.

Tipo de retorno

str

partition_keys

Retorna as chaves de partição

Retornos

as chaves de partição

Tipo de retorno

tags

Retornar as marcas do registro.

Retornos

Marcas do Conjunto de dados.

Tipo de retorno

str

version

Retornar a versão do registro.

Retornos

A versão do conjuntos de dados.

Tipo de retorno

int