data Pacote

Referência

Contém módulos que dão suporte à representação de dados para armazenamento de dados e conjunto de dados no Azure Machine Learning.

Este pacote contém a funcionalidade principal que dá suporte às classes Datastore e Dataset no pacote core. Os objetos de Armazenamento de Dados contêm as informações de conexão com os serviços de Armazenamento do Azure que podem ser facilmente referenciados pelo nome sem a necessidade de trabalhar diretamente com informações de conexão nem de codificá-las em scripts. O armazenamento de dados dá suporte a vários serviços diferentes representados por classes nesse pacote, incluindo AzureBlobDatastore, AzureFileDatastore e AzureDataLakeDatastore. Para obter uma lista completa de serviços de armazenamento com suporte, confira a classe Datastore.

Enquanto um armazenamento de dados atua como um contêiner para seus arquivos de dados, você pode considerar um conjunto de dados como uma referência ou um indicador para dados específicos que estão no armazenamento de dados. Há suporte para os seguintes tipos de Conjuntos de dados:

TabularDataset representa dados em um formato tabular criado pela análise do arquivo fornecido ou da lista de arquivos.
FileDataset referencia arquivos únicos ou vários arquivos nos armazenamentos de dados ou nas URLs públicas.

Para obter mais informações, consulte o artigo Adicionar & registrar conjuntos de dados. Para começar a trabalhar com conjuntos de dados, confira https://aka.ms/tabulardataset-samplenotebook e https://aka.ms/filedataset-samplenotebook.

Módulos

abstract_dataset	Contém a classe base abstrata para conjuntos de dados no Azure Machine Learning.
abstract_datastore	Contém a funcionalidade base para os armazenamentos de dados que salvam informações de conexão nos serviços de armazenamento do Azure.
azure_data_lake_datastore	Contém a funcionalidade base para os armazenamentos de dados que salvam informações de conexão no Azure Data Lake Storage.
azure_my_sql_datastore	Contém a funcionalidade base para os armazenamentos de dados que salvam informações de conexão no Banco de Dados do Azure para MySQL.
azure_postgre_sql_datastore	Contém a funcionalidade base para os armazenamentos de dados que salvam informações de conexão no Banco de Dados do Azure para PostgreSQL.
azure_sql_database_datastore	Contém a funcionalidade base para os armazenamentos de dados que salvam informações de conexão no Banco de Dados SQL do Azure.
azure_storage_datastore	Contém funcionalidade para armazenamentos de dados que salvam informações de conexão no armazenamento de Blobs do Azure e Arquivos do Azure.
constants	Constantes usadas no pacote azureml.data. Somente para uso interno.
context_managers	Contém a funcionalidade para gerenciar o contexto de dados de armazenamentos e conjuntos de dados. Somente para uso interno.
data_reference	Contém a funcionalidade que define como criar referências a dados em armazenamentos de dados.
datacache	Contém a funcionalidade para gerenciar DatacacheStore e Datacache no Azure Machine Learning.
datacache_client	Somente para uso interno.
datacache_consumption_config	Contém a funcionalidade para a configuração de consumo de DataCache.
datacache_singularity_settings	Contém objetos necessários para a representação de configurações do Datacache Singularity.
datapath	Contém a funcionalidade para criar referências a dados em armazenamentos de dados. Esse módulo contém a classe DataPath, que representa o local dos dados e a classe DataPathComputeBinding, que representa como os dados são disponibilizados nos destinos de computação.
dataset_action_run	Contém a funcionalidade que gerencia a execução de ações de conjunto de dados. Esse módulo fornece métodos práticos para criar ações de conjunto de dados e obter o resultado delas após a conclusão.
dataset_consumption_config	Contém a funcionalidade para a configuração de consumo do conjunto de dados.
dataset_definition	Contém a funcionalidade para gerenciar a definição do conjunto de dados e as respectivas operações. Observação Esse módulo foi preterido. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
dataset_error_handling	Contém exceções para tratamento de erro de conjunto de dados do Azure Machine Learning.
dataset_factory	Contém a funcionalidade para criar conjuntos de dados para o Azure Machine Learning.
dataset_profile	Classe para coletar estatísticas resumidas sobre os dados produzidos por um fluxo de dados. A funcionalidade neste módulo inclui a coleta de informações sobre qual execução produziu o perfil e se o perfil está obsoleto ou não.
dataset_profile_run	Contém a configuração para monitorar a execução do perfil de conjunto de dados no Azure Machine Learning. A funcionalidade neste módulo inclui a manipulação e o monitoramento da execução do perfil de conjunto de dados associado a um objeto de experimento e a uma ID de execução individual.
dataset_profile_run_config	Contém a configuração para gerar o resumo de estatísticas de Conjuntos de Dados no Azure Machine Learning. A funcionalidade nesse módulo inclui os métodos para enviar a execução de perfil local ou remoto e visualizar o resultado da execução de perfil enviada.
dataset_snapshot	Contém a funcionalidade para gerenciar operações de instantâneo do conjunto de dados. Observação Esse módulo foi preterido. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
dataset_type_definitions	Contém valores de enumeração usados com Dataset.
datastore_client	Somente para uso interno.
dbfs_datastore	Contém a funcionalidade para os armazenamentos de dados que salvam informações de conexão no Sytem de Arquivos do Databricks (DBFS).
file_dataset	Contém a funcionalidade para fazer referência a um ou vários arquivos em armazenamentos de dados ou URLs públicas. Para obter mais informações, consulte o artigo Adicionar & registrar conjuntos de dados. Para começar a trabalhar com um conjunto de dados de arquivo, confira https://aka.ms/filedataset-samplenotebook.
hdfs_datastore	Contém a funcionalidade base para os armazenamentos de dados que salvam informações de conexão em um cluster HDFS.
output_dataset_config	Contém configurações que especificam como as saídas de um trabalho devem ser carregadas e promovidas a um conjunto de dados. Para obter mais informações, confira o artigo como especificar saídas.
sql_data_reference	Contém funcionalidade para criar referências a dados em datastores que salvam informações de conexão em bancos de dados SQL.
stored_procedure_parameter	Contém a funcionalidade para criar um parâmetro a ser aprovado para um procedimento SQL armazenado.
tabular_dataset	Contém a funcionalidade para representar dados em formato tabular analisando o arquivo ou a lista de arquivos fornecida. Para obter mais informações, consulte o artigo Adicionar & registrar conjuntos de dados. Para começar a trabalhar com um conjunto de dados tabular, confira https://aka.ms/tabulardataset-samplenotebook.

Classes

DataType	Configura os tipos de dados de coluna para um conjunto de dados criado no Azure Machine Learning. Os métodos DataType são usados nos métodos `from_*` da classe TabularDatasetFactory, que são usados para criar objetos TabularDataset.
DatacacheStore	Observação Essa é uma classe experimental e pode mudar a qualquer momento. Consulte https://aka.ms/azuremlexperimental para obter mais informações. Representa uma abstração de armazenamento de uma conta de armazenamento do Azure Machine Learning. DatacacheStores são anexados aos workspaces e usados para armazenar as informações relacionadas à solução de cache de dados subjacente. Atualmente, há suporte apenas para a solução de blob particionado. Eles definem vários armazenamentos de dados de blob que podem ser usados para cache. Use essa classe para executar operações de gerenciamento, incluindo registrar, listar, obter e atualizar datacachestores. DatacacheStores para cada serviço são criados com os métodos `register*` desta classe. Obter um armazenamento de dados em cache por nome. Essa chamada fará uma solicitação para o serviço datacache.
FileDataset	Representa uma coleção de referências de arquivo em armazenamentos de dados ou URLs públicas para uso no Azure Machine Learning. Um FileDataset define uma série de operações imutáveis avaliadas lentamente para carregar os dados da fonte de dados em fluxos de arquivos. Os dados não são carregados na origem até que o FileDataset seja solicitado a fornecer os dados. Um FileDataset é criado usando o método from_files da classe FileDatasetFactory. Para obter mais informações, consulte o artigo Adicionar & registrar conjuntos de dados. Para começar a trabalhar com um conjunto de dados de arquivo, confira https://aka.ms/filedataset-samplenotebook. Inicialize o objeto FileDataset. Esse construtor não deve ser invocado diretamente. O conjunto de dados destina-se a ser criado usando FileDatasetFactory a classe .
HDFSOutputDatasetConfig	Representa como gerar uma saída para um caminho HDFS e ser promovido como um FileDataset. Inicialize um HDFSOutputDatasetConfig.
LinkFileOutputDatasetConfig	Observação Essa é uma classe experimental e pode mudar a qualquer momento. Consulte https://aka.ms/azuremlexperimental para obter mais informações. Representa como vincular a saída de uma execução e promovê-la como um FileDataset. O LinkFileOutputDatasetConfig permite vincular um conjunto de dados de arquivo como um conjunto de dados de saída workspace = Workspace.from_config() experiment = Experiment(workspace, 'output_example') output = LinkFileOutputDatasetConfig('link_output') script_run_config = ScriptRunConfig('.', 'link.py', arguments=[output]) # within link.py # from azureml.core import Run, Dataset # run = Run.get_context() # workspace = run.experiment.workspace # dataset = Dataset.get_by_name(workspace, name='dataset_to_link') # run.output_datasets['link_output'].link(dataset) run = experiment.submit(script_run_config) print(run) Inicialize um LinkFileOutputDatasetConfig.
LinkTabularOutputDatasetConfig	Observação Essa é uma classe experimental e pode mudar a qualquer momento. Consulte https://aka.ms/azuremlexperimental para obter mais informações. Representa como vincular a saída de uma execução e depois promovê-la como um TabularDataset. O LinkTabularOutputDatasetConfig permite vincular um arquivo Tabular como um conjunto de dados de saída workspace = Workspace.from_config() experiment = Experiment(workspace, 'output_example') output = LinkTabularOutputDatasetConfig('link_output') script_run_config = ScriptRunConfig('.', 'link.py', arguments=[output]) # within link.py # from azureml.core import Run, Dataset # run = Run.get_context() # workspace = run.experiment.workspace # dataset = Dataset.get_by_name(workspace, name='dataset_to_link') # run.output_datasets['link_output'].link(dataset) run = experiment.submit(script_run_config) print(run) Inicialize um LinkTabularOutputDatasetConfig.
OutputFileDatasetConfig	Representa como copiar a saída de uma execução e depois promovê-la como um FileDataset. O OutputFileDatasetConfig permite que você especifique como deseja que um determinado caminho local no destino de computação seja carregado para o destino especificado. Se nenhum argumento for passado para o construtor, geraremos automaticamente um nome, um destino e um caminho local. Um exemplo em que nenhum argumento é passado: `workspace = Workspace.from_config() experiment = Experiment(workspace, 'output_example') output = OutputFileDatasetConfig() script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output]) run = experiment.submit(script_run_config) print(run)` Um exemplo de criação de uma saída, em que depois a saída é promovida para um conjunto de dados tabular que é registrado com o nome foo: `workspace = Workspace.from_config() experiment = Experiment(workspace, 'output_example') datastore = Datastore(workspace, 'example_adls_gen2_datastore') # for more information on the parameters and methods, please look for the corresponding documentation. output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo') script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output]) run = experiment.submit(script_run_config) print(run)` Inicialize um OutputFileDatasetConfig. O OutputFileDatasetConfig permite que você especifique como deseja que um determinado caminho local no destino de computação seja carregado para o destino especificado. Se nenhum argumento for passado para o construtor, geraremos automaticamente um nome, um destino e um caminho local. Um exemplo em que nenhum argumento é passado: `workspace = Workspace.from_config() experiment = Experiment(workspace, 'output_example') output = OutputFileDatasetConfig() script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output]) run = experiment.submit(script_run_config) print(run)` Um exemplo de criação de uma saída, em que depois a saída é promovida para um conjunto de dados tabular que é registrado com o nome foo: `workspace = Workspace.from_config() experiment = Experiment(workspace, 'output_example') datastore = Datastore(workspace, 'example_adls_gen2_datastore') # for more information on the parameters and methods, please look for the corresponding documentation. output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo') script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output]) run = experiment.submit(script_run_config) print(run)`
TabularDataset	Representa um conjunto de dados tabular a ser usado no Azure Machine Learning. Um TabularDataset define uma série de operações que passam por avaliação preguiçosa e imutáveis a fim de carregar dados da fonte de dados para a representação tabular. Os dados não são carregados da origem até que TabularDataset seja solicitado a fornecer dados. TabularDataset é criado usando métodos como from_delimited_files da classe TabularDatasetFactory. Para obter mais informações, consulte o artigo Adicionar & registrar conjuntos de dados. Para começar a trabalhar com um conjunto de dados tabular, confira https://aka.ms/tabulardataset-samplenotebook. Inicialize um objeto TabularDataset. Esse construtor não deve ser invocado diretamente. O conjunto de dados destina-se a ser criado usando TabularDatasetFactory a classe .

Compartilhar via

data Pacote

Módulos

Classes

Comentários

Comentários

Recursos adicionais