Partilhar via


AbstractDataset Classe

Classe base de conjuntos de dados no Azure Machine Learning.

Referencie TabularDatasetFactory a classe e FileDatasetFactory a classe para criar instâncias de conjuntos de dados.

Construtor Class AbstractDataset.

Este construtor não deve ser invocado diretamente. O conjunto de dados destina-se a ser criado com classe TabularDatasetFactory e FileDatasetFactory classe.

Herança
builtins.object
AbstractDataset

Construtor

AbstractDataset()

Métodos

add_tags

Adicione pares de valores chave ao dicionário de etiquetas deste conjunto de dados.

as_named_input

Forneça um nome para este conjunto de dados que será utilizado para obter o conjunto de dados materializado na execução.

get_all

Obtenha todos os conjuntos de dados registados na área de trabalho.

get_by_id

Obtenha um Conjunto de Dados guardado na área de trabalho.

get_by_name

Obtenha um Conjunto de Dados registado da área de trabalho pelo respetivo nome de registo.

get_partition_key_values

Devolver valores de chave exclusivos de partition_keys.

valide se partition_keys for um subconjunto válido de um conjunto completo de chaves de partição, devolver valores de chave exclusivos de partition_keys, predefinição para devolver as combinações de teclas exclusivas ao utilizar o conjunto completo de chaves de partição deste conjunto de dados se partition_keys for Nenhum


   # get all partition key value pairs
   partitions = ds.get_partition_key_values()
   # Return [{'country': 'US', 'state': 'WA', 'partition_date': datetime('2020-1-1')}]

   partitions = ds.get_partition_key_values(['country'])
   # Return [{'country': 'US'}]
register

Registe o conjunto de dados na área de trabalho fornecida.

remove_tags

Remova as chaves especificadas do dicionário de etiquetas deste conjunto de dados.

unregister_all_versions

Anule o registo de todas as versões no nome de registo deste conjunto de dados da área de trabalho.

update

Efetue uma atualização no local do conjunto de dados.

add_tags

Adicione pares de valores chave ao dicionário de etiquetas deste conjunto de dados.

add_tags(tags=None)

Parâmetros

tags
dict[str, str]
Necessário

O dicionário de etiquetas a adicionar.

Devoluções

O objeto do conjunto de dados atualizado.

Tipo de retorno

as_named_input

Forneça um nome para este conjunto de dados que será utilizado para obter o conjunto de dados materializado na execução.

as_named_input(name)

Parâmetros

name
str
Necessário

O nome do conjunto de dados da execução.

Devoluções

O objeto de configuração que descreve como o Conjunto de Dados deve ser materializado na execução.

Tipo de retorno

Observações

O nome aqui só será aplicável dentro de uma execução do Azure Machine Learning. O nome só tem de conter carateres alfanuméricos e de sublinhado para que possa ser disponibilizado como uma variável de ambiente. Pode utilizar este nome para obter o conjunto de dados no contexto de uma execução com duas abordagens:

  • Variável de Ambiente:

    O nome será o nome da variável de ambiente e o conjunto de dados materializado será disponibilizado como o valor da variável de ambiente. Se o conjunto de dados for transferido ou montado, o valor será o caminho transferido/montado. Por exemplo:


   # in your job submission notebook/script:
   dataset.as_named_input('foo').as_download('/tmp/dataset')

   # in the script that will be executed in the run
   import os
   path = os.environ['foo'] # path will be /tmp/dataset

Nota

Se o conjunto de dados estiver definido como modo direto, o valor será o ID do conjunto de dados. Em seguida, pode

obter o objeto do conjunto de dados ao fazer Dataset.get_by_id(os.environ['foo'])

  • Run.input_datasets:

    Este é um dicionário onde a chave será o nome do conjunto de dados que especificou neste método e o valor será o conjunto de dados materializado. Para o conjunto de dados transferido e montado, o valor será o caminho transferido/montado. Para o modo direto, o valor será o mesmo objeto de conjunto de dados que especificou no script de submissão da tarefa.


   # in your job submission notebook/script:
   dataset.as_named_input('foo') # direct mode

   # in the script that will be executed in the run
   run = Run.get_context()
   run.input_datasets['foo'] # this returns the dataset object from above.

get_all

Obtenha todos os conjuntos de dados registados na área de trabalho.

static get_all(workspace)

Parâmetros

workspace
Workspace
Necessário

A área de trabalho do AzureML existente na qual os Conjuntos de Dados foram registados.

Devoluções

Um dicionário de objetos TabularDataset e FileDataset com chave no respetivo nome de registo.

Tipo de retorno

get_by_id

Obtenha um Conjunto de Dados guardado na área de trabalho.

static get_by_id(workspace, id, **kwargs)

Parâmetros

workspace
Workspace
Necessário

A área de trabalho do AzureML existente na qual o Conjunto de Dados é guardado.

id
str
Necessário

O ID do conjunto de dados.

Devoluções

O objeto do conjunto de dados. Se o conjunto de dados estiver registado, o respetivo nome de registo e versão também serão devolvidos.

Tipo de retorno

get_by_name

Obtenha um Conjunto de Dados registado da área de trabalho pelo respetivo nome de registo.

static get_by_name(workspace, name, version='latest', **kwargs)

Parâmetros

workspace
Workspace
Necessário

A área de trabalho do AzureML existente na qual o Conjunto de Dados foi registado.

name
str
Necessário

O nome do registo.

version
int
Necessário

A versão de registo. A predefinição é "mais recente".

Devoluções

O objeto do conjunto de dados registado.

Tipo de retorno

get_partition_key_values

Devolver valores de chave exclusivos de partition_keys.

valide se partition_keys for um subconjunto válido de um conjunto completo de chaves de partição, devolver valores de chave exclusivos de partition_keys, predefinição para devolver as combinações de teclas exclusivas ao utilizar o conjunto completo de chaves de partição deste conjunto de dados se partition_keys for Nenhum


   # get all partition key value pairs
   partitions = ds.get_partition_key_values()
   # Return [{'country': 'US', 'state': 'WA', 'partition_date': datetime('2020-1-1')}]

   partitions = ds.get_partition_key_values(['country'])
   # Return [{'country': 'US'}]
get_partition_key_values(partition_keys=None)

Parâmetros

partition_keys
list[str]
Necessário

chaves de partição

register

Registe o conjunto de dados na área de trabalho fornecida.

register(workspace, name, description=None, tags=None, create_new_version=False)

Parâmetros

workspace
Workspace
Necessário

A área de trabalho para registar o conjunto de dados.

name
str
Necessário

O nome para registar o conjunto de dados.

description
str
Necessário

Uma descrição de texto do conjunto de dados. A predefinição é Nenhuma.

tags
dict[str, str]
Necessário

Dicionário de etiquetas de valor de chave para dar o conjunto de dados. A predefinição é Nenhuma.

create_new_version
bool
Necessário

Booleano para registar o conjunto de dados como uma nova versão no nome especificado.

Devoluções

O objeto do conjunto de dados registado.

Tipo de retorno

remove_tags

Remova as chaves especificadas do dicionário de etiquetas deste conjunto de dados.

remove_tags(tags=None)

Parâmetros

tags
list[str]
Necessário

A lista de chaves a remover.

Devoluções

O objeto do conjunto de dados atualizado.

Tipo de retorno

unregister_all_versions

Anule o registo de todas as versões no nome de registo deste conjunto de dados da área de trabalho.

unregister_all_versions()

Observações

A operação não altera quaisquer dados de origem.

update

Efetue uma atualização no local do conjunto de dados.

update(description=None, tags=None)

Parâmetros

description
str
Necessário

A nova descrição a utilizar para o conjunto de dados. Esta descrição substitui a descrição existente. A predefinição é a descrição existente. Para limpar a descrição, introduza uma cadeia vazia.

tags
dict[str, str]
Necessário

Um dicionário de etiquetas para atualizar o conjunto de dados. Estas etiquetas substituem as etiquetas existentes para o conjunto de dados. Predefinições para etiquetas existentes. Para limpar etiquetas, introduza o dicionário vazio.

Devoluções

O objeto do conjunto de dados atualizado.

Tipo de retorno

Atributos

data_changed_time

Devolver a hora de alteração dos dados de origem.

Devoluções

A hora em que a alteração mais recente aconteceu à origem de dados.

Tipo de retorno

Observações

O tempo de alteração de dados está disponível para a origem de dados baseada em ficheiros. Nenhuma será devolvida quando a origem de dados não for suportada para verificar quando ocorreu a alteração.

description

Devolva a descrição do registo.

Devoluções

Descrição do conjunto de dados.

Tipo de retorno

str

id

Devolver o identificador do conjunto de dados.

Devoluções

ID do conjunto de dados. Se o conjunto de dados não for guardado em nenhuma área de trabalho, o ID será Nenhum.

Tipo de retorno

str

name

Devolver o nome do registo.

Devoluções

Nome do conjunto de dados.

Tipo de retorno

str

partition_keys

Devolver as chaves de partição.

Devoluções

as chaves de partição

Tipo de retorno

tags

Devolver as etiquetas de registo.

Devoluções

Etiquetas de conjuntos de dados.

Tipo de retorno

str

version

Devolver a versão de registo.

Devoluções

Versão do conjunto de dados.

Tipo de retorno

int