Conceitos de dados no Azure Machine Learning

Com o Azure Machine Learning, você pode importar dados de uma máquina local ou de um recurso de armazenamento baseado em nuvem existente. Este artigo descreve os principais conceitos de dados do Azure Machine Learning.

Arquivo de dados

Um armazenamento de dados do Azure Machine Learning serve como referência a uma conta de armazenamento existente do Azure. Um armazenamento de dados do Azure Machine Learning oferece estes benefícios:

  • Uma API comum e fácil de usar que interage com diferentes tipos de armazenamento (Blob/Files/ADLS).
  • Descoberta mais fácil de armazenamentos de dados úteis em operações de equipe.
  • Para acesso baseado em credenciais (entidade de serviço/SAS/chave), o armazenamento de dados do Azure Machine Learning protege as informações de conexão. Dessa forma, você não precisará colocar essas informações em seus scripts.

Ao criar um armazenamento de dados com uma conta de armazenamento do Azure existente, você pode escolher entre dois métodos de autenticação diferentes:

  • Baseado em credenciais - autentique o acesso a dados com uma entidade de serviço, token de assinatura de acesso compartilhado (SAS) ou chave de conta. Os usuários com acesso ao espaço de trabalho do Reader podem acessar as credenciais.
  • Baseado em identidade - use sua identidade do Microsoft Entra ou identidade gerenciada para autenticar o acesso aos dados.

A tabela a seguir resume os serviços de armazenamento baseados em nuvem do Azure que um armazenamento de dados do Azure Machine Learning pode criar. Além disso, a tabela resume os tipos de autenticação que podem acessar esses serviços:

Serviço de armazenamento suportado Autenticação baseada em credenciais Autenticação baseada em identidade
Contentor de Blobs do Azure
Partilha de Ficheiros do Azure
Azure Data Lake Gen1
Azure Data Lake Gen2

Consulte Criar armazenamentos de dados para obter mais informações sobre armazenamentos de dados.

Tipos de dados

Um URI (local de armazenamento) pode fazer referência a um arquivo, uma pasta ou uma tabela de dados. Uma definição de entrada e saída de trabalho de aprendizado de máquina requer um dos três tipos de dados a seguir:

Tipo V2 API V1 API Cenários canônicos Diferença da API V2/V1
Ficheiro
Fazer referência a um único ficheiro
uri_file FileDataset Ler / gravar um único arquivo - o arquivo pode ter qualquer formato. Um tipo novo para APIs V2. Nas APIs V1, os arquivos sempre são mapeados para uma pasta no sistema de arquivos de destino de computação; Este mapeamento exigiu um os.path.joinarquivo . Nas APIs V2, o arquivo único é mapeado. Dessa forma, você pode se referir a esse local em seu código.
Pasta
Fazer referência a uma única pasta
uri_folder FileDataset Você deve ler/gravar uma pasta de arquivos parquet/CSV no Pandas/Spark.

Aprendizagem profunda com ficheiros de imagens, texto, áudio e vídeo localizados numa pasta.
Nas APIs V1, FileDataset tinha um mecanismo associado que podia obter uma amostra de arquivo de uma pasta. Em APIs V2, uma pasta é um mapeamento simples para o sistema de arquivos de destino de computação.
Tabela
Fazer referência a uma tabela de dados
mltable TabularDataset Você tem um esquema complexo sujeito a alterações frequentes ou precisa de um subconjunto de dados tabulares grandes.

AutoML com tabelas.
Nas APIs V1, o back-end do Azure Machine Learning armazenava o esquema de materialização de dados. Como resultado, TabularDataset só funcionava se você tivesse um espaço de trabalho do Azure Machine Learning. mltable armazena o plano de materialização de dados em seu armazenamento. Esse local de armazenamento significa que você pode usá-lo desconectado do AzureML - por exemplo, local e localmente. Nas APIs V2, será mais fácil fazer a transição de trabalhos locais para remotos. Consulte Trabalhar com tabelas no Azure Machine Learning para obter mais informações.

URI

Um URI (Uniform Resource Identifier) representa um local de armazenamento em seu computador local, armazenamento do Azure ou um local http(s) disponível publicamente. Estes exemplos mostram URIs para diferentes opções de armazenamento:

Localização do armazenamento Exemplos de URI
Azure Machine Learning Datastore azureml://datastores/<data_store_name>/paths/<folder1>/<folder2>/<folder3>/<file>.parquet
Computador local ./home/username/data/my_data
Servidor http(s) público(s) https://raw.githubusercontent.com/pandas-dev/pandas/main/doc/data/titanic.csv
Armazenamento de Blobs wasbs://<containername>@<accountname>.blob.core.windows.net/<folder>/
Azure Data Lake (gen2) abfss://<file_system>@<account_name>.dfs.core.windows.net/<folder>/<file>.csv
Azure Data Lake (gen1) adl://<accountname>.azuredatalakestore.net/<folder1>/<folder2>

Um trabalho do Azure Machine Learning mapeia URIs para o sistema de arquivos de destino de computação. Esse mapeamento significa que, em um comando que consome ou produz um URI, esse URI funciona como um arquivo ou uma pasta. Um URI usa autenticação baseada em identidade para se conectar a serviços de armazenamento, com sua ID do Microsoft Entra (padrão) ou Identidade Gerenciada. Os URIs do Repositório de Dados do Azure Machine Learning podem aplicar autenticação baseada em identidade ou baseada em credenciais (por exemplo, Entidade de Serviço, token SAS, chave de conta), sem exposição de segredos.

Um URI pode servir como entrada ou saída para um trabalho do Azure Machine Learning e pode mapear para o sistema de arquivos de destino de computação com uma das quatro opções de modo diferentes:

  • Montagem somente leitura (ro_mount): O URI representa um local de armazenamento montadono sistema de arquivos de destino de computação. O local de dados montado suporta exclusivamente saída somente leitura.
  • Montagem de leitura/gravação (rw_mount): O URI representa um local de armazenamento montado no sistema de arquivos de destino de computação. O local de dados montado suporta saída de leitura e gravação de dados nele.
  • Download (download): O URI representa um local de armazenamento que contém dados que são baixados para o sistema de arquivos de destino de computação.
  • Upload (upload): Todos os dados gravados em um local de destino de computação são carregados no local de armazenamento representado pelo URI.

Além disso, você pode passar o URI como uma cadeia de caracteres de entrada de trabalho com o modo direto . Esta tabela resume a combinação de modos disponíveis para entradas e saídas:

Tarefa
Entrada ou Saída
upload download ro_mount rw_mount direct
Entrada
Saída

Consulte Acessar dados em um trabalho para obter mais informações.

Capacidade de tempo de execução de dados

O Azure Machine Learning usa seu próprio tempo de execução de dados para uma das três finalidades:

  • para montagens/uploads/downloads
  • para mapear URIs de armazenamento para o sistema de arquivos de destino de computação
  • para materializar dados tabulares em pandas/spark com tabelas do Azure Machine Learning (mltable)

O tempo de execução de dados do Azure Machine Learning foi projetado para alta velocidade e alta eficiência de tarefas de aprendizado de máquina. Oferece os seguintes benefícios principais:

  • Arquitetura da linguagem Rust . A linguagem Rust é conhecida pela alta velocidade e alta eficiência de memória.
  • Peso leve; o tempo de execução de dados do Azure Machine Learning não tem dependências em outras tecnologias - JVM, por exemplo - portanto, o tempo de execução é instalado rapidamente em destinos de computação.
  • Carregamento de dados multiprocesso (paralelo).
  • As pré-buscas de dados operam como tarefa em segundo plano na(s) CPU(s), para melhorar a utilização da(s) GPU(s) em operações de aprendizagem profunda.
  • Autenticação perfeita para armazenamento em nuvem.

Ativo de dados

Um ativo de dados do Azure Machine Learning se assemelha aos marcadores do navegador da Web (favoritos). Em vez de lembrar URIs (caminhos de armazenamento longos) que apontam para os dados usados com mais frequência, você pode criar um ativo de dados e, em seguida, acessar esse ativo com um nome amigável.

A criação de ativos de dados também cria uma referência ao local da fonte de dados, juntamente com uma cópia de seus metadados. Como os dados permanecem em seu local existente, você não incorre em nenhum custo adicional de armazenamento e não corre em risco a integridade da fonte de dados. Você pode criar ativos de dados a partir de armazenamentos de dados do Azure Machine Learning, Armazenamento do Azure, URLs públicas ou arquivos locais.

Consulte Criar ativos de dados para obter mais informações sobre ativos de dados.

Próximos passos