Partilhar via


data Pacote

Contém módulos que suportam a representação de dados para Datastore e Conjunto de Dados no Azure Machine Learning.

Este pacote contém as principais funcionalidades de suporte Datastore e Dataset classes no core pacote. Os objetos do Arquivo de Dados contêm informações de ligação aos serviços de armazenamento do Azure que podem ser facilmente referidos pelo nome sem a necessidade de trabalhar diretamente com ou informações de ligação de código rígido em scripts. O Datastore suporta vários serviços diferentes representados por classes neste pacote, incluindo AzureBlobDatastore, AzureFileDatastoree AzureDataLakeDatastore. Para obter uma lista completa dos serviços de armazenamento suportados, veja a Datastore classe.

Embora um Datastore aja como um contentor para os seus ficheiros de dados, pode considerar um Conjunto de Dados como uma referência ou ponteiro para dados específicos que estão no seu arquivo de dados. São suportados os seguintes tipos de Conjuntos de Dados:

  • TabularDataset representa dados em formato tabular que são criados ao analisar o ficheiro ou a lista de ficheiros fornecidos.

  • FileDataset referencia ficheiros individuais ou múltiplos nos seus arquivos de dados ou URLs públicos.

Para obter mais informações, veja o artigo Adicionar & registar conjuntos de dados. Para começar a trabalhar com conjuntos de dados, consulte https://aka.ms/tabulardataset-samplenotebook e https://aka.ms/filedataset-samplenotebook.

Módulos

abstract_dataset

Contém a classe base abstrata para conjuntos de dados no Azure Machine Learning.

abstract_datastore

Contém a funcionalidade base dos arquivos de dados que guardam informações de ligação aos serviços de armazenamento do Azure.

azure_data_lake_datastore

Contém a funcionalidade base dos arquivos de dados que guardam informações de ligação em Azure Data Lake Storage.

azure_my_sql_datastore

Contém a funcionalidade base dos arquivos de dados que guardam informações de ligação em Base de Dados do Azure para MySQL.

azure_postgre_sql_datastore

Contém a funcionalidade base dos arquivos de dados que guardam informações de ligação em Base de Dados do Azure para PostgreSQL.

azure_sql_database_datastore

Contém a funcionalidade base dos arquivos de dados que guardam informações de ligação na base de dados SQL do Azure.

azure_storage_datastore

Contém funcionalidades para arquivos de dados que guardam informações de ligação ao Blob do Azure e ao Armazenamento de Ficheiros do Azure.

constants

Constantes utilizadas no pacote azureml.data. Apenas utilização interna.

context_managers

Contém funcionalidades para gerir o contexto de dados de arquivos de dados e conjuntos de dados. Apenas utilização interna.

data_reference

Contém funcionalidades que definem como criar referências a dados em arquivos de dados.

datacache

Contém funcionalidades para gerir o DatacacheStore e o Datacache no Azure Machine Learning.

datacache_client

Apenas utilização interna.

datacache_consumption_config

Contém funcionalidades para a configuração de consumo do DataCache.

datacache_singularity_settings

Contém objetos necessários para a representação das definições de Singularidade do Datacache.

datapath

Contém funcionalidades para criar referências a dados em arquivos de dados.

Este módulo contém a DataPath classe, que representa a localização dos dados, e a DataPathComputeBinding classe, que representa a forma como os dados são disponibilizados nos destinos de computação.

dataset_action_run

Contém funcionalidades que gerem a execução de ações do Conjunto de Dados.

Este módulo fornece métodos de conveniência para criar ações do Conjunto de Dados e obter os resultados após a conclusão.

dataset_consumption_config

Contém funcionalidades para a configuração de consumo do Conjunto de dados.

dataset_definition

Contém funcionalidades para gerir a definição do conjunto de dados e as respetivas operações.

Nota

Este módulo foi preterido. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

dataset_error_handling

Contém exceções para o processamento de erros de conjuntos de dados no Azure Machine Learning.

dataset_factory

Contém funcionalidades para criar conjuntos de dados para o Azure Machine Learning.

dataset_profile

Classe para recolher estatísticas de resumo sobre os dados produzidos por um Fluxo de Dados.

A funcionalidade neste módulo inclui a recolha de informações sobre a execução que produziu o perfil, quer o perfil esteja obsoleto ou não.

dataset_profile_run

Contém a configuração para monitorizar a execução do perfil do conjunto de dados no Azure Machine Learning.

A funcionalidade neste módulo inclui o processamento e monitorização da execução do perfil do conjunto de dados associado a um objeto de experimentação e iD de execução individual.

dataset_profile_run_config

Contém a configuração para gerar o resumo de estatísticas dos conjuntos de dados no Azure Machine Learning.

A funcionalidade neste módulo inclui métodos para submeter a execução de perfis locais ou remotos e visualizar o resultado da execução do perfil submetido.

dataset_snapshot

Contém funcionalidades para gerir operações de instantâneos do Conjunto de dados.

Nota

Este módulo foi preterido. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

dataset_type_definitions

Contém valores de enumeração utilizados com Dataset.

datastore_client

Apenas utilização interna.

dbfs_datastore

Contém funcionalidades para arquivos de dados que guardam informações de ligação ao Sytem de Ficheiros do Databricks (DBFS).

file_dataset

Contém funcionalidades para referenciar ficheiros individuais ou múltiplos em arquivos de dados ou URLs públicos.

Para obter mais informações, veja o artigo Adicionar & registar conjuntos de dados. Para começar a trabalhar com um conjunto de dados de ficheiros, consulte https://aka.ms/filedataset-samplenotebook.

hdfs_datastore

Contém a funcionalidade base dos arquivos de dados que guardam informações de ligação num cluster HDFS.

output_dataset_config

Contém configurações que especificam como as saídas de uma tarefa devem ser carregadas e promovidas para um conjunto de dados.

Para obter mais informações, veja o artigo como especificar saídas.

sql_data_reference

Contém funcionalidades para criar referências a dados em arquivos de dados que guardam informações de ligação em bases de dados SQL.

stored_procedure_parameter

Contém funcionalidades para criar um parâmetro para passar para um procedimento armazenado do SQL.

tabular_dataset

Contém funcionalidades para representar dados num formato tabular ao analisar o ficheiro fornecido ou a lista de ficheiros.

Para obter mais informações, veja o artigo Adicionar & registar conjuntos de dados. Para começar a trabalhar com um conjunto de dados tabular, consulte https://aka.ms/tabulardataset-samplenotebook.

Classes

DataType

Configura tipos de dados de coluna para um conjunto de dados criado no Azure Machine Learning.

Os métodos DataType são utilizados nos TabularDatasetFactory métodos de classe from_* , que são utilizados para criar novos objetos TabularDataset.

DatacacheStore

Nota

Esta é uma classe experimental e pode mudar em qualquer altura. Para obter mais informações, veja https://aka.ms/azuremlexperimental.

Representa uma abstração de armazenamento numa conta de armazenamento do Azure Machine Learning.

Os DatacacheStores são anexados a áreas de trabalho e são utilizados para armazenar informações relacionadas com a solução de datacache subjacente. Atualmente, apenas é suportada a solução de blobs particionadas. O Datacachestores define vários arquivos de dados de Blobs que podem ser utilizados para colocação em cache.

Utilize esta classe para realizar operações de gestão, incluindo registar, listar, obter e atualizar arquivos de dados. Os DatacacheStores para cada serviço são criados com os register* métodos desta classe.

Obtenha um arquivo de dados por nome. Esta chamada fará um pedido ao serviço datacache.

FileDataset

Representa uma coleção de referências de ficheiros em arquivos de dados ou URLs públicos a utilizar no Azure Machine Learning.

Um FileDataset define uma série de operações imutáveis e avaliadas de forma preguiçosa para carregar dados da origem de dados para fluxos de ficheiros. Os dados não são carregados a partir da origem até que o FileDataset seja solicitado a entregar dados.

É criado um FileDataset com o from_files método da classe FileDatasetFactory.

Para obter mais informações, veja o artigo Adicionar & registar conjuntos de dados. Para começar a trabalhar com um conjunto de dados de ficheiros, consulte https://aka.ms/filedataset-samplenotebook.

Inicialize o objeto FileDataset.

Este construtor não deve ser invocado diretamente. O conjunto de dados destina-se a ser criado com a FileDatasetFactory classe.

HDFSOutputDatasetConfig

Represente como exportar para um caminho HDFS e ser promovido como fileDataset.

Inicialize um HDFSOutputDatasetConfig.

LinkFileOutputDatasetConfig

Nota

Esta é uma classe experimental e pode mudar em qualquer altura. Para obter mais informações, veja https://aka.ms/azuremlexperimental.

Represente como ligar o resultado de uma execução e ser promovido como fileDataset.

O LinkFileOutputDatasetConfig permite-lhe ligar um conjunto de dados de ficheiros como conjunto de dados de saída


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = LinkFileOutputDatasetConfig('link_output')

   script_run_config = ScriptRunConfig('.', 'link.py', arguments=[output])

   # within link.py
   # from azureml.core import Run, Dataset
   # run = Run.get_context()
   # workspace = run.experiment.workspace
   # dataset = Dataset.get_by_name(workspace, name='dataset_to_link')
   # run.output_datasets['link_output'].link(dataset)

   run = experiment.submit(script_run_config)
   print(run)

Inicialize um LinkFileOutputDatasetConfig.

LinkTabularOutputDatasetConfig

Nota

Esta é uma classe experimental e pode mudar em qualquer altura. Para obter mais informações, veja https://aka.ms/azuremlexperimental.

Represente como ligar o resultado de uma execução e ser promovido como tabularDataset.

O LinkTabularOutputDatasetConfig permite-lhe ligar um ficheiro Tabular como conjunto de dados de saída


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = LinkTabularOutputDatasetConfig('link_output')

   script_run_config = ScriptRunConfig('.', 'link.py', arguments=[output])

   # within link.py
   # from azureml.core import Run, Dataset
   # run = Run.get_context()
   # workspace = run.experiment.workspace
   # dataset = Dataset.get_by_name(workspace, name='dataset_to_link')
   # run.output_datasets['link_output'].link(dataset)

   run = experiment.submit(script_run_config)
   print(run)

Inicialize um LinkTabularOutputDatasetConfig.

OutputFileDatasetConfig

Represente como copiar o resultado de uma execução e ser promovido como fileDataset.

O OutputFileDatasetConfig permite-lhe especificar como pretende que um caminho local específico no destino de computação seja carregado para o destino especificado. Se não forem transmitidos argumentos ao construtor, geraremos automaticamente um nome, um destino e um caminho local.

Um exemplo de não transmitir argumentos:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Um exemplo de criação de uma saída e, em seguida, promover a saída para um conjunto de dados tabular e registá-lo com o nome foo:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Inicialize um OutputFileDatasetConfig.

O OutputFileDatasetConfig permite-lhe especificar como pretende que um caminho local específico no destino de computação seja carregado para o destino especificado. Se não forem transmitidos argumentos ao construtor, geraremos automaticamente um nome, um destino e um caminho local.

Um exemplo de não transmitir argumentos:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Um exemplo de criação de uma saída e, em seguida, promover a saída para um conjunto de dados tabular e registá-lo com o nome foo:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)
TabularDataset

Representa um conjunto de dados tabular a utilizar no Azure Machine Learning.

Um TabularDataset define uma série de operações imutáveis e avaliadas de forma preguiçosa para carregar dados da origem de dados para representação tabular. Os dados não são carregados a partir da origem até que tabularDataset seja solicitado a entregar dados.

TabularDataset é criado com métodos como from_delimited_files da TabularDatasetFactory classe.

Para obter mais informações, veja o artigo Adicionar & registar conjuntos de dados. Para começar a trabalhar com um conjunto de dados tabular, consulte https://aka.ms/tabulardataset-samplenotebook.

Inicializar um objeto TabularDataset.

Este construtor não deve ser invocado diretamente. O conjunto de dados destina-se a ser criado com a TabularDatasetFactory classe.