AbstractDataset Classe
Classe base dos conjuntos de dados no Azure Machine Learning.
Referencie as classes TabularDatasetFactory e FileDatasetFactory para criar instâncias do conjunto de dados.
Construtor de classe AbstractDataset.
Esse construtor não deve ser invocado diretamente. O conjunto de dados destina-se a ser criado usando TabularDatasetFactory classe e FileDatasetFactory classe.
- Herança
-
builtins.objectAbstractDataset
Construtor
AbstractDataset()
Métodos
add_tags |
Adicionar pares de chave/valor ao dicionário de marcas deste conjunto de dados. |
as_named_input |
Forneça um nome para este conjunto de dados que será usado para recuperar o conjunto de dados materializado na execução. |
get_all |
Obter todos os conjuntos de dados registrados no workspace. |
get_by_id |
Obter um Conjunto de dados que está salvo no workspace. |
get_by_name |
Obter um Conjunto de dados registrado do workspace pelo nome de registro. |
get_partition_key_values |
Retornar valores de chave exclusivos de partition_keys. validar se partition_keys for um subconjunto válido do conjunto completo de chaves de partição, retornar valores de chave exclusivos de partition_keys, o padrão para retornar as combinações de teclas exclusivas, obtendo o conjunto completo de chaves de partição desse conjunto de dados se partition_keys for Nenhum
|
register |
Registre o conjunto de dados no workspace fornecido. |
remove_tags |
Remova as chaves especificadas do dicionário de marcas do conjunto de dados. |
unregister_all_versions |
Cancele o registro de todas as versões com o nome de registro deste conjunto de dados do workspace. |
update |
Execute uma atualização in-loco do conjunto de dados. |
add_tags
Adicionar pares de chave/valor ao dicionário de marcas deste conjunto de dados.
add_tags(tags=None)
Parâmetros
Retornos
O objeto do conjunto de dados atualizado.
Tipo de retorno
as_named_input
Forneça um nome para este conjunto de dados que será usado para recuperar o conjunto de dados materializado na execução.
as_named_input(name)
Parâmetros
Retornos
O objeto de configuração que descreve como o conjunto de dados deve ser materializado na execução.
Tipo de retorno
Comentários
O nome aqui só será aplicável em uma execução do Azure Machine Learning. O nome deve conter somente caracteres alfanuméricos e sublinhados para que possa ser disponibilizado como uma variável de ambiente. Você pode usar esse nome para recuperar o conjunto de dados no contexto de uma execução por meio de duas abordagens:
Variável de ambiente:
O nome será o nome da variável de ambiente e o conjunto de dados materializado será disponibilizado como o valor dela. Se o conjunto de dados for baixado ou montado, o valor será o caminho baixado/montado. Por exemplo:
# in your job submission notebook/script:
dataset.as_named_input('foo').as_download('/tmp/dataset')
# in the script that will be executed in the run
import os
path = os.environ['foo'] # path will be /tmp/dataset
Observação
Se o conjunto de valores for definido como modo direto, o valor será a ID do conjunto de valores. Em seguida, você pode:
Recuperar o objeto DataSet fazendo Dataset.get_by_id (os. Environ [' foo '])
Run.input_datasets:
Este é um dicionário em que a chave será o nome do conjunto de dados que você especificou no método e o valor será o conjunto de dados materializado. Para o conjunto de dados baixado e montado, o valor será o caminho baixado/montado. Para o modo direto, o valor será o mesmo objeto de conjunto de dados que você especificou em seu script de envio de tarefa.
# in your job submission notebook/script:
dataset.as_named_input('foo') # direct mode
# in the script that will be executed in the run
run = Run.get_context()
run.input_datasets['foo'] # this returns the dataset object from above.
get_all
Obter todos os conjuntos de dados registrados no workspace.
static get_all(workspace)
Parâmetros
- workspace
- Workspace
O workspace do AzureML existente no qual os Conjuntos de dados foram registrados.
Retornos
Um dicionário de objetos TabularDataset e FileDataset com as chaves definidas segundo seu nome de registro.
Tipo de retorno
get_by_id
Obter um Conjunto de dados que está salvo no workspace.
static get_by_id(workspace, id, **kwargs)
Parâmetros
- workspace
- Workspace
O workspace do AzureML existente no qual o Conjunto de dados foi salvo.
Retornos
O objeto de conjunto de dados. Se o conjunto de registros estiver registrado, seu nome de registro e a versão também serão retornados.
Tipo de retorno
get_by_name
Obter um Conjunto de dados registrado do workspace pelo nome de registro.
static get_by_name(workspace, name, version='latest', **kwargs)
Parâmetros
- workspace
- Workspace
O workspace do AzureML existente no qual o Conjunto de dados foi registrado.
Retornos
O objeto de conjunto de dados registrado.
Tipo de retorno
get_partition_key_values
Retornar valores de chave exclusivos de partition_keys.
validar se partition_keys for um subconjunto válido do conjunto completo de chaves de partição, retornar valores de chave exclusivos de partition_keys, o padrão para retornar as combinações de teclas exclusivas, obtendo o conjunto completo de chaves de partição desse conjunto de dados se partition_keys for Nenhum
# get all partition key value pairs
partitions = ds.get_partition_key_values()
# Return [{'country': 'US', 'state': 'WA', 'partition_date': datetime('2020-1-1')}]
partitions = ds.get_partition_key_values(['country'])
# Return [{'country': 'US'}]
get_partition_key_values(partition_keys=None)
Parâmetros
register
Registre o conjunto de dados no workspace fornecido.
register(workspace, name, description=None, tags=None, create_new_version=False)
Parâmetros
- description
- str
Uma descrição de texto do conjunto de dados. Assume o valor padrão de Nenhum.
Dicionário de marcas de chave-valor a serem fornecidas ao conjunto de dados. Assume o valor padrão de Nenhum.
- create_new_version
- bool
Booliano para registrar o conjunto de dados como uma nova versão com o nome especificado.
Retornos
O objeto de conjunto de dados registrado.
Tipo de retorno
remove_tags
Remova as chaves especificadas do dicionário de marcas do conjunto de dados.
remove_tags(tags=None)
Parâmetros
Retornos
O objeto do conjunto de dados atualizado.
Tipo de retorno
unregister_all_versions
Cancele o registro de todas as versões com o nome de registro deste conjunto de dados do workspace.
unregister_all_versions()
Comentários
A operação não altera nenhum dado de origem.
update
Execute uma atualização in-loco do conjunto de dados.
update(description=None, tags=None)
Parâmetros
- description
- str
A nova descrição usada para o conjunto de dados. Esta descrição substitui a existente. O valor padrão é a descrição existente. Para limpar a descrição, insira uma cadeia de caracteres vazia.
Um dicionário de marcas com as quais atualizar o conjunto de dados. Essas novas marcas substituem as existentes no conjunto de dados. O valor padrão são as marcas existentes. Para limpar as marcas, insira um dicionário vazio.
Retornos
O objeto do conjunto de dados atualizado.
Tipo de retorno
Atributos
data_changed_time
Retornar a hora de alteração dos dados de origem.
Retornos
A hora em que a alteração mais recente aconteceu nos dados de origem.
Tipo de retorno
Comentários
A hora da alteração de dados está disponível para a fonte de dados baseada em arquivo. Nenhum será retornado quando a fonte de dados não tiver suporte para verificar quando a alteração ocorreu.
description
id
O identificador exclusivo do conjunto de dados.
Retornos
ID do conjunto de dados. Se o conjunto de dados não for salvo em nenhum workspace, a ID será Nenhum.
Tipo de retorno
name
partition_keys
tags
version
Comentários
https://aka.ms/ContentUserFeedback.
Em breve: Ao longo de 2024, eliminaremos os problemas do GitHub como o mecanismo de comentários para conteúdo e o substituiremos por um novo sistema de comentários. Para obter mais informações, consulteEnviar e exibir comentários de