Compartilhar via


data Pacote

Contém módulos que dão suporte à representação de dados para armazenamento de dados e conjunto de dados no Azure Machine Learning.

Este pacote contém a funcionalidade principal que dá suporte às classes Datastore e Dataset no pacote core. Os objetos de Armazenamento de Dados contêm as informações de conexão com os serviços de Armazenamento do Azure que podem ser facilmente referenciados pelo nome sem a necessidade de trabalhar diretamente com informações de conexão nem de codificá-las em scripts. O armazenamento de dados dá suporte a vários serviços diferentes representados por classes nesse pacote, incluindo AzureBlobDatastore, AzureFileDatastore e AzureDataLakeDatastore. Para obter uma lista completa de serviços de armazenamento com suporte, confira a classe Datastore.

Enquanto um armazenamento de dados atua como um contêiner para seus arquivos de dados, você pode considerar um conjunto de dados como uma referência ou um indicador para dados específicos que estão no armazenamento de dados. Há suporte para os seguintes tipos de Conjuntos de dados:

  • TabularDataset representa dados em um formato tabular criado pela análise do arquivo fornecido ou da lista de arquivos.

  • FileDataset referencia arquivos únicos ou vários arquivos nos armazenamentos de dados ou nas URLs públicas.

Para obter mais informações, consulte o artigo Adicionar & registrar conjuntos de dados. Para começar a trabalhar com conjuntos de dados, confira https://aka.ms/tabulardataset-samplenotebook e https://aka.ms/filedataset-samplenotebook.

Módulos

abstract_dataset

Contém a classe base abstrata para conjuntos de dados no Azure Machine Learning.

abstract_datastore

Contém a funcionalidade base para os armazenamentos de dados que salvam informações de conexão nos serviços de armazenamento do Azure.

azure_data_lake_datastore

Contém a funcionalidade base para os armazenamentos de dados que salvam informações de conexão no Azure Data Lake Storage.

azure_my_sql_datastore

Contém a funcionalidade base para os armazenamentos de dados que salvam informações de conexão no Banco de Dados do Azure para MySQL.

azure_postgre_sql_datastore

Contém a funcionalidade base para os armazenamentos de dados que salvam informações de conexão no Banco de Dados do Azure para PostgreSQL.

azure_sql_database_datastore

Contém a funcionalidade base para os armazenamentos de dados que salvam informações de conexão no Banco de Dados SQL do Azure.

azure_storage_datastore

Contém funcionalidade para armazenamentos de dados que salvam informações de conexão no armazenamento de Blobs do Azure e Arquivos do Azure.

constants

Constantes usadas no pacote azureml.data. Somente para uso interno.

context_managers

Contém a funcionalidade para gerenciar o contexto de dados de armazenamentos e conjuntos de dados. Somente para uso interno.

data_reference

Contém a funcionalidade que define como criar referências a dados em armazenamentos de dados.

datacache

Contém a funcionalidade para gerenciar DatacacheStore e Datacache no Azure Machine Learning.

datacache_client

Somente para uso interno.

datacache_consumption_config

Contém a funcionalidade para a configuração de consumo de DataCache.

datacache_singularity_settings

Contém objetos necessários para a representação de configurações do Datacache Singularity.

datapath

Contém a funcionalidade para criar referências a dados em armazenamentos de dados.

Esse módulo contém a classe DataPath, que representa o local dos dados e a classe DataPathComputeBinding, que representa como os dados são disponibilizados nos destinos de computação.

dataset_action_run

Contém a funcionalidade que gerencia a execução de ações de conjunto de dados.

Esse módulo fornece métodos práticos para criar ações de conjunto de dados e obter o resultado delas após a conclusão.

dataset_consumption_config

Contém a funcionalidade para a configuração de consumo do conjunto de dados.

dataset_definition

Contém a funcionalidade para gerenciar a definição do conjunto de dados e as respectivas operações.

Observação

Esse módulo foi preterido. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

dataset_error_handling

Contém exceções para tratamento de erro de conjunto de dados do Azure Machine Learning.

dataset_factory

Contém a funcionalidade para criar conjuntos de dados para o Azure Machine Learning.

dataset_profile

Classe para coletar estatísticas resumidas sobre os dados produzidos por um fluxo de dados.

A funcionalidade neste módulo inclui a coleta de informações sobre qual execução produziu o perfil e se o perfil está obsoleto ou não.

dataset_profile_run

Contém a configuração para monitorar a execução do perfil de conjunto de dados no Azure Machine Learning.

A funcionalidade neste módulo inclui a manipulação e o monitoramento da execução do perfil de conjunto de dados associado a um objeto de experimento e a uma ID de execução individual.

dataset_profile_run_config

Contém a configuração para gerar o resumo de estatísticas de Conjuntos de Dados no Azure Machine Learning.

A funcionalidade nesse módulo inclui os métodos para enviar a execução de perfil local ou remoto e visualizar o resultado da execução de perfil enviada.

dataset_snapshot

Contém a funcionalidade para gerenciar operações de instantâneo do conjunto de dados.

Observação

Esse módulo foi preterido. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

dataset_type_definitions

Contém valores de enumeração usados com Dataset.

datastore_client

Somente para uso interno.

dbfs_datastore

Contém a funcionalidade para os armazenamentos de dados que salvam informações de conexão no Sytem de Arquivos do Databricks (DBFS).

file_dataset

Contém a funcionalidade para fazer referência a um ou vários arquivos em armazenamentos de dados ou URLs públicas.

Para obter mais informações, consulte o artigo Adicionar & registrar conjuntos de dados. Para começar a trabalhar com um conjunto de dados de arquivo, confira https://aka.ms/filedataset-samplenotebook.

hdfs_datastore

Contém a funcionalidade base para os armazenamentos de dados que salvam informações de conexão em um cluster HDFS.

output_dataset_config

Contém configurações que especificam como as saídas de um trabalho devem ser carregadas e promovidas a um conjunto de dados.

Para obter mais informações, confira o artigo como especificar saídas.

sql_data_reference

Contém funcionalidade para criar referências a dados em datastores que salvam informações de conexão em bancos de dados SQL.

stored_procedure_parameter

Contém a funcionalidade para criar um parâmetro a ser aprovado para um procedimento SQL armazenado.

tabular_dataset

Contém a funcionalidade para representar dados em formato tabular analisando o arquivo ou a lista de arquivos fornecida.

Para obter mais informações, consulte o artigo Adicionar & registrar conjuntos de dados. Para começar a trabalhar com um conjunto de dados tabular, confira https://aka.ms/tabulardataset-samplenotebook.

Classes

DataType

Configura os tipos de dados de coluna para um conjunto de dados criado no Azure Machine Learning.

Os métodos DataType são usados nos métodos from_* da classe TabularDatasetFactory, que são usados para criar objetos TabularDataset.

DatacacheStore

Observação

Essa é uma classe experimental e pode mudar a qualquer momento. Consulte https://aka.ms/azuremlexperimental para obter mais informações.

Representa uma abstração de armazenamento de uma conta de armazenamento do Azure Machine Learning.

DatacacheStores são anexados aos workspaces e usados para armazenar as informações relacionadas à solução de cache de dados subjacente. Atualmente, há suporte apenas para a solução de blob particionado. Eles definem vários armazenamentos de dados de blob que podem ser usados para cache.

Use essa classe para executar operações de gerenciamento, incluindo registrar, listar, obter e atualizar datacachestores. DatacacheStores para cada serviço são criados com os métodos register* desta classe.

Obter um armazenamento de dados em cache por nome. Essa chamada fará uma solicitação para o serviço datacache.

FileDataset

Representa uma coleção de referências de arquivo em armazenamentos de dados ou URLs públicas para uso no Azure Machine Learning.

Um FileDataset define uma série de operações imutáveis avaliadas lentamente para carregar os dados da fonte de dados em fluxos de arquivos. Os dados não são carregados na origem até que o FileDataset seja solicitado a fornecer os dados.

Um FileDataset é criado usando o método from_files da classe FileDatasetFactory.

Para obter mais informações, consulte o artigo Adicionar & registrar conjuntos de dados. Para começar a trabalhar com um conjunto de dados de arquivo, confira https://aka.ms/filedataset-samplenotebook.

Inicialize o objeto FileDataset.

Esse construtor não deve ser invocado diretamente. O conjunto de dados destina-se a ser criado usando FileDatasetFactory a classe .

HDFSOutputDatasetConfig

Representa como gerar uma saída para um caminho HDFS e ser promovido como um FileDataset.

Inicialize um HDFSOutputDatasetConfig.

LinkFileOutputDatasetConfig

Observação

Essa é uma classe experimental e pode mudar a qualquer momento. Consulte https://aka.ms/azuremlexperimental para obter mais informações.

Representa como vincular a saída de uma execução e promovê-la como um FileDataset.

O LinkFileOutputDatasetConfig permite vincular um conjunto de dados de arquivo como um conjunto de dados de saída


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = LinkFileOutputDatasetConfig('link_output')

   script_run_config = ScriptRunConfig('.', 'link.py', arguments=[output])

   # within link.py
   # from azureml.core import Run, Dataset
   # run = Run.get_context()
   # workspace = run.experiment.workspace
   # dataset = Dataset.get_by_name(workspace, name='dataset_to_link')
   # run.output_datasets['link_output'].link(dataset)

   run = experiment.submit(script_run_config)
   print(run)

Inicialize um LinkFileOutputDatasetConfig.

LinkTabularOutputDatasetConfig

Observação

Essa é uma classe experimental e pode mudar a qualquer momento. Consulte https://aka.ms/azuremlexperimental para obter mais informações.

Representa como vincular a saída de uma execução e depois promovê-la como um TabularDataset.

O LinkTabularOutputDatasetConfig permite vincular um arquivo Tabular como um conjunto de dados de saída


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = LinkTabularOutputDatasetConfig('link_output')

   script_run_config = ScriptRunConfig('.', 'link.py', arguments=[output])

   # within link.py
   # from azureml.core import Run, Dataset
   # run = Run.get_context()
   # workspace = run.experiment.workspace
   # dataset = Dataset.get_by_name(workspace, name='dataset_to_link')
   # run.output_datasets['link_output'].link(dataset)

   run = experiment.submit(script_run_config)
   print(run)

Inicialize um LinkTabularOutputDatasetConfig.

OutputFileDatasetConfig

Representa como copiar a saída de uma execução e depois promovê-la como um FileDataset.

O OutputFileDatasetConfig permite que você especifique como deseja que um determinado caminho local no destino de computação seja carregado para o destino especificado. Se nenhum argumento for passado para o construtor, geraremos automaticamente um nome, um destino e um caminho local.

Um exemplo em que nenhum argumento é passado:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Um exemplo de criação de uma saída, em que depois a saída é promovida para um conjunto de dados tabular que é registrado com o nome foo:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Inicialize um OutputFileDatasetConfig.

O OutputFileDatasetConfig permite que você especifique como deseja que um determinado caminho local no destino de computação seja carregado para o destino especificado. Se nenhum argumento for passado para o construtor, geraremos automaticamente um nome, um destino e um caminho local.

Um exemplo em que nenhum argumento é passado:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Um exemplo de criação de uma saída, em que depois a saída é promovida para um conjunto de dados tabular que é registrado com o nome foo:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)
TabularDataset

Representa um conjunto de dados tabular a ser usado no Azure Machine Learning.

Um TabularDataset define uma série de operações que passam por avaliação preguiçosa e imutáveis a fim de carregar dados da fonte de dados para a representação tabular. Os dados não são carregados da origem até que TabularDataset seja solicitado a fornecer dados.

TabularDataset é criado usando métodos como from_delimited_files da classe TabularDatasetFactory.

Para obter mais informações, consulte o artigo Adicionar & registrar conjuntos de dados. Para começar a trabalhar com um conjunto de dados tabular, confira https://aka.ms/tabulardataset-samplenotebook.

Inicialize um objeto TabularDataset.

Esse construtor não deve ser invocado diretamente. O conjunto de dados destina-se a ser criado usando TabularDatasetFactory a classe .