Conectar-se a dados com o Estúdio do Azure Machine Learning

Neste artigo, saiba como acessar dados com o Estúdio do Azure Machine Learning. Conecte-se aos dados nos serviços de armazenamento do Azure com armazenamento de dados do Azure Machine Learninge, em seguida, empacote-os para as tarefas nos fluxos de trabalho de ML com conjuntos de dados do Azure Machine Learning.

A tabela a seguir define e resume os benefícios de armazenamentos e conjuntos de dados.

Objeto Descrição Benefícios
Armazenamentos de dados Conecte-se com segurança ao serviço de armazenamento do Azure, armazenando as informações de conexão, como ID de assinatura e autorização de token no Key Vault associado ao workspace Como as informações são armazenadas com segurança,

  • Não coloque as credenciais de autenticação ou fontes de dados originais em risco.
  • Não é mais necessário embuti-los em código nos scripts.
  • Conjunto de dados Ao criar um conjunto de dados, você cria uma referência para o local da fonte de dados com uma cópia de seus metadados. Com conjuntos de dados, é possível,

  • Acessar dados durante o treinamento do modelo.
  • Compartilhar dados e colaborar com outros usuários.
  • Use as bibliotecas de código aberto, como o pandas, para exploração de dados.
  • Como os conjuntos de dados são avaliados lentamente, e os dados permanecem no local existente,

  • Mantenha uma única cópia de dados no armazenamento.
  • Não incorra em nenhum custo de armazenamento extra
  • Não arrisque mudar sem querer suas fontes de dados originais.
  • Aprimore as velocidades de desempenho do fluxo de trabalho do ML.
  • Para entender onde os armazenamentos de dados e conjunto de dados se encaixam no fluxo de trabalho de acesso a dados geral do Azure Machine Learning, confira o artigo Acessar dados com segurança.

    Para uma experiência de code first, consulte os seguintes artigos para usar o SDK do Python do Azure Machine Learning para:

    Pré-requisitos

    • Uma assinatura do Azure. Caso não tenha uma assinatura do Azure, crie uma conta gratuita antes de começar. Experimente a versão gratuita ou paga do Azure Machine Learning.

    • Acesso ao Estúdio do Azure Machine Learning.

    • Um Workspace do Azure Machine Learning. Criar recursos do workspace.

      • Quando se cria um espaço de trabalho, um contêiner de blobs do Azure e um compartilhamento de arquivos do Azure são automaticamente registrados como armazenamentos de dados no espaço de trabalho. Seus nomes são workspaceblobstore e workspacefilestore, respectivamente. Se o armazenamento de blobs for suficiente para suas necessidades, o workspaceblobstore será definido como o repositório de armazenamento padrão e já estará configurado para uso. Caso contrário, será necessária uma conta de armazenamento no Azure com um tipo de armazenamento com suporte.

    Criar armazenamentos de dados

    Você pode criar armazenamentos de dados dessas soluções de armazenamento do Azure. Para soluções de armazenamento sem suporte e para economizar o custo de saída de dados durante experimentos de ML, mova os dados para uma solução de armazenamento do Azure com suporte. Saiba mais sobre armazenamentos de dados.

    Você pode criar armazenamentos de dados com acesso baseado em credencial ou com acesso baseado em identidade.

    Criar um novo armazenamento de dados em algumas etapas com o Estúdio do Azure Machine Learning.

    Importante

    Se a conta de armazenamento de dados estiver em uma rede virtual, serão necessárias etapas de configuração adicionais para garantir que o estúdio tenha acesso aos dados. Consulte Isolamento de rede e privacidade para garantir que sejam aplicadas as etapas de configuração adequadas.

    1. Entre no Estúdio do Azure Machine Learning.
    2. Selecione Dados no painel esquerdo em Ativos.
    3. Na parte superior, selecione Armazenamentos de Dados.
    4. Selecione +Criar.
    5. Preencha o formulário para criar e registrar um novo repositório de armazenamento. O formulário se atualiza de forma inteligente com base nas seleções de tipo de armazenamento e tipo de autenticação do Azure. Consulte a seção acesso e permissões de armazenamento para entender onde encontrar as credenciais de autenticação necessárias para preencher este formulário.

    O exemplo a seguir demonstra a aparência do formulário quando é criado um armazenamento de dados de Blob do Azure:

    Form for a new datastore

    Criar ativos de dados

    Depois de criar um armazenamento de dados, crie um conjunto de dados para interagir com os dados. Os conjuntos de dados empacotam os dados em um objeto de consumo avaliado lentamente para tarefas de aprendizado de máquina, como treinamento. Saiba mais sobre conjuntos de dados.

    Existem dois tipos de conjuntos de dados, FileDataset e TabularDataset. Os FileDatasets criam referências a um ou vários arquivos ou a URLs públicas. Enquanto isso, os TabularDatasets representam os dados em um formato tabular. Você pode criar TabularDatasets de arquivos .csv, .tsv, .parquet, .jsonl e de resultados da consulta SQL.

    As etapas descrevem como criar um conjunto de dados no Estúdio do Azure Machine Learning.

    Observação

    Os conjuntos de dados criados por meio do Estúdio do Azure Machine Learning são automaticamente registrados no espaço de trabalho.

    1. Navegue até o estúdio do Azure Machine Learning

    2. Em Ativos no menu de navegação à esquerda, selecione Dados. Na guia Ativos de dados, selecione Criar This screenshot highlights Create in the Data assets tab.

    3. Dê um nome ao ativo de dados e uma descrição opcional. Em seguida, em Tipo, selecione um dos tipos de conjunto de dados: Arquivo ou Tabular. This screenshot shows set the name, description, and type of the data asset.

    4. Você tem algumas opções para sua fonte de dados. Se seus dados já estiverem armazenados no Azure, escolha "Do armazenamento do Azure". Se você quiser carregar dados da unidade local, escolha "Dos arquivos locais". Se seus dados forem armazenados em um local público da Web, escolha "De arquivos da Web". Você também pode criar um ativo de dados de um banco de dados SQL ou de Conjuntos de Dados Abertos do Azure.

    5. Para a etapa de seleção de arquivo, selecione onde você deseja que seus dados sejam armazenados no Azure e quais arquivos de dados você deseja usar.

      1. Habilite ignorar validação se os dados estiverem em uma rede virtual. Saiba mais sobre o Isolamento e privacidade da rede virtual.
    6. Siga as etapas para definir as configurações de análise de dados e o esquema do ativo de dados. As configurações serão pré-preenchidas com base no tipo de arquivo e você pode definir suas configurações antes de criar o ativo de dados.

    7. Depois de chegar à etapa de Revisão, clique em Criar na última página

    Visualização de dados e perfil

    Depois de criar o conjunto de dados, verifique se é possível exibir a visualização e o perfil no Estúdio com as etapas a seguir:

    1. Entre no Estúdio do Azure Machine Learning
    2. Em Ativos no menu de navegação à esquerda, selecione Dados. Screenshot highlights Create in the Data assets tab.
    3. Selecione o nome do conjunto de dados que deseja exibir.
    4. Selecione a guia Explorar .
    5. Selecione a guia Visualização. Screenshot shows a preview of a dataset.
    6. Selecione a guia Perfil. Screenshot shows dataset column metadata in the Profile tab.

    É possível obter uma grande variedade de estatísticas de resumo em seu conjunto de dados para verificar se ele está pronto para o ML. Para colunas não numéricas, eles incluem apenas estatísticas básicas, como mínimo, máximo e contagem de erros. Para colunas numéricas, também é possível revisar os momentos estatísticos e os quantis estimados.

    Especificamente, o perfil de dados do conjunto de dados do Azure Machine Learning inclui:

    Observação

    Entradas em branco são exibidas para recursos com tipos irrelevantes.

    Estatística Descrição
    Recurso Nome da coluna que está sendo resumida.
    Perfil Visualização em linha baseada no tipo inferido. Por exemplo, cadeias de caracteres, boolianos e datas terão contagens de valor, enquanto decimais (numéricos) têm histogramas aproximados. Isso permite que você obtenha uma compreensão rápida da distribuição dos dados.
    Distribuição de tipos Contagem de valor em linha de tipos dentro de uma coluna. Os nulos são do seu próprio tipo, portanto, essa visualização é útil para detectar valores ímpares ou ausentes.
    Type Tipo inferido da coluna. Os valores possíveis incluem: cadeias de caracteres, boolianos, datas e decimais.
    Mín Valor mínimo da coluna. Entradas em branco são exibidas para recursos cujo tipo não tenha uma ordenação inerente (como, boolianos).
    Max Valor máximo da coluna.
    Contagem Quantidade total de entradas ausentes e não ausentes na coluna.
    Sem contagem faltando Quantidade de entradas na coluna que não estão ausentes. Cadeias de caracteres e erros vazios são tratados como valores, portanto, eles não contribuirão para a “contagem de não ausentes”.
    Quantis Valores aproximados em cada quantil para fornecer uma noção da distribuição dos dados.
    Média Média aritmética ou média da coluna.
    Desvio padrão Medida da quantidade de dispersão ou variação dos dados dessa coluna.
    Variance A medida de quão difundidos estão os dados dessa coluna em comparação ao valor médio.
    Distorção Medida de quão diferentes os dados dessa coluna são em comparação a uma distribuição normal.
    Curtose Medida de quão profundamente conectados os dados dessa coluna estão em comparação a uma distribuição normal.

    Acesso e permissões do armazenamento

    Para garantir que a conexão ocorra com segurança ao serviço de armazenamento do Azure, o Azure Machine Learning exige uma permissão para acessar o armazenamento de dados correspondente. Esse acesso depende das credenciais de autenticação usadas para registrar o armazenamento de dados.

    Rede virtual

    Se a conta de armazenamento de dados estiver em uma rede virtual, serão necessárias etapas de configuração extras para garantir ao Azure Machine Learning acesso aos dados. Consulte Usar o Estúdio do Azure Machine Learning em uma rede virtual para garantir que as etapas de configuração apropriadas sejam aplicadas ao criar e registrar seu armazenamento de dados.

    Validação de acesso

    Aviso

    Não há suporte para acesso entre locatários a contas de armazenamento. Se o acesso entre locatários for necessário para o seu cenário, entre em contato com o alias da equipe de Suporte de Dados do Azure Machine Learning em amldatasupport@microsoft.com para obter assistência com uma solução de código personalizada.

    Como parte do processo inicial de criação e registro do armazenamento de dados, o Azure Machine Learning valida automaticamente que o serviço de armazenamento subjacente existe e que a entidade de segurança fornecida pelo usuário (nome de usuário, entidade de serviço ou token SAS) tem acesso ao armazenamento especificado.

    Após a criação do armazenamento de dados, essa validação é executada somente para métodos que exijam acesso ao contêiner de armazenamento subjacente, não a cada vez que os objetos de armazenamento de dados são recuperados. Por exemplo, a validação ocorrerá se você quiser baixar arquivos de seu armazenamento de dados; mas se você quiser apenas alterar o armazenamento de dados padrão, a validação não ocorrerá.

    Para autenticar o acesso ao serviço de armazenamento subjacente, é possível fornecer sua chave de conta, tokens de SAS (assinaturas de acesso compartilhado) ou entidade de serviço de acordo com o tipo de armazenamento de dados que deseja criar. A matriz de tipo de armazenamento lista os tipos de autenticação com suporte que correspondem a cada tipo de armazenamento de dados.

    É possível encontrar informações de chave de conta, token SAS e entidade de serviço no portal do Azure.

    • Se você planeja usar uma chave de conta ou um token SAS para autenticação, selecione Contas de Armazenamento no painel esquerdo e escolha a conta de armazenamento que deseja registrar.

      • A página Visão Geral fornece informações como o nome da conta, o contêiner e o nome do compartilhamento de arquivo.
        1. Para obter as chaves de conta, vá para Chaves de acesso no painel Configurações.
        2. Para obter os tokens SAS, vá para Assinaturas de acesso compartilhado no painel Configurações.
    • Se planeja usar uma entidade de serviço para autenticação, vá para Registros de aplicativo e selecione qual aplicativo deseja usar.

      • A página Visão Geral correspondente conterá informações necessárias, como ID do locatário e ID do cliente.

    Importante

    • Caso precise alterar as chaves de acesso para uma conta de Armazenamento do Azure (chave de conta ou token SAS), certifique-se de sincronizar as novas credenciais com o workspace e os armazenamentos de dados conectados a ela. Saiba como sincronizar as credenciais atualizadas.

    • Se cancelar o registro e registrar novamente um armazenamento de dados com o mesmo nome e falhar, talvez o Azure Key Vault para o workspace não tenha a exclusão reversível habilitada. Por padrão, a exclusão reversível está habilitada para a instância do cofre de chaves criada pelo o workspace, mas poderá não ser habilitada caso tenha usado um cofre de chaves existente ou tenha um workspace criado antes de outubro de 2020. Para obter informações sobre como habilitar a exclusão temporária, confira Ativar a Exclusão Temporária para um cofre de chaves existente.

    Permissões

    Para o contêiner de blobs do Azure e o armazenamento Azure Data Lake Gen 2, verifique se as credenciais de autenticação têm acesso ao Leitor de Dados do Storage Blob. Saiba mais sobre o Leitor de Dados do Storage Blob. Um token SAS de conta tem como padrão nenhuma permissão.

    • Para acesso de leiturade dados, as credenciais de autenticação devem ter um mínimo de permissões de lista e leitura para contêineres e objetos.

    • Para acesso de gravaçãode dados, também são necessárias permissões de gravação e adição.

    Treinar com conjuntos de dados

    Use seus conjuntos de dados em experimentos de machine learning para o treinamento de modelos de ML. Saiba mais sobre como treinar com conjuntos de dados.

    Próximas etapas