Ligar aos dados com o estúdio do Azure Machine Learning

Neste artigo, saiba como acessar seus dados com o estúdio do Azure Machine Learning. Conecte-se aos seus dados em serviços de armazenamento no Azure com armazenamentos de dados do Azure Machine Learning e, em seguida, empacote esses dados para tarefas em seus fluxos de trabalho de ML com conjuntos de dados do Azure Machine Learning.

A tabela a seguir define e resume os benefícios de armazenamentos de dados e conjuntos de dados.

Objeto Description Benefícios
Arquivos de dados Conecte-se com segurança ao seu serviço de armazenamento no Azure, armazenando suas informações de conexão, como sua ID de assinatura e autorização de token em seu Cofre de Chaves associado ao espaço de trabalho Como suas informações são armazenadas com segurança, você

  • Não coloque em risco as credenciais de autenticação ou as fontes de dados originais.
  • Não é mais necessário codificá-los em seus scripts.
  • Conjuntos de Dados Ao criar um conjunto de dados, cria uma referência para a localização da origem de dados, juntamente com uma cópia dos metadados. Com conjuntos de dados você pode,

  • Acesse os dados durante o treinamento do modelo.
  • Partilhe dados e colabore com outros utilizadores.
  • Use bibliotecas de código aberto, como pandas, para exploração de dados.
  • Como os conjuntos de dados são avaliados preguiçosamente e os dados permanecem em seu local existente, você

  • Mantenha uma única cópia dos dados no seu armazenamento.
  • Incorra sem custos adicionais de armazenamento
  • Não corra o risco de alterar involuntariamente suas fontes de dados originais.
  • Melhore as velocidades de desempenho do fluxo de trabalho de ML.
  • Para entender onde os armazenamentos de dados e conjuntos de dados se encaixam no fluxo de trabalho geral de acesso a dados do Azure Machine Learning, consulte o artigo Acesso seguro a dados .

    Para obter uma primeira experiência de código, consulte os seguintes artigos para usar o SDK Python do Azure Machine Learning para:

    Pré-requisitos

    • Uma subscrição do Azure. Se não tiver uma subscrição do Azure, crie uma conta gratuita antes de começar. Experimente a versão gratuita ou paga do Azure Machine Learning.

    • Acesso ao estúdio do Azure Machine Learning.

    • Uma área de trabalho do Azure Machine Learning. Crie recursos de espaço de trabalho.

      • Quando você cria um espaço de trabalho, um contêiner de blob do Azure e um compartilhamento de arquivos do Azure são registrados automaticamente como armazenamentos de dados no espaço de trabalho. Eles são nomeados workspaceblobstore e workspacefilestore, respectivamente. Se o armazenamento de blob for suficiente para suas necessidades, o será definido como o workspaceblobstore armazenamento de dados padrão e já configurado para uso. Caso contrário, você precisará de uma conta de armazenamento no Azure com um tipo de armazenamento suportado.

    Criar arquivos de dados

    Você pode criar armazenamentos de dados a partir dessas soluções de armazenamento do Azure. Para soluções de armazenamento sem suporte e para economizar custos de saída de dados durante experimentos de ML, você deve mover seus dados para uma solução de armazenamento do Azure com suporte. Saiba mais sobre datastores.

    Você pode criar armazenamentos de dados com acesso baseado em credenciais ou acesso baseado em identidade.

    Crie um novo armazenamento de dados em algumas etapas com o estúdio do Azure Machine Learning.

    Importante

    Se sua conta de armazenamento de dados estiver em uma rede virtual, etapas de configuração adicionais serão necessárias para garantir que o estúdio tenha acesso aos seus dados. Consulte Isolamento de rede & privacidade para garantir que as etapas de configuração apropriadas sejam aplicadas.

    1. Entre no estúdio do Azure Machine Learning.
    2. Selecione Dados no painel esquerdo em Ativos.
    3. Na parte superior, selecione Datastores.
    4. Selecione +Criar.
    5. Preencha o formulário para criar e registrar um novo armazenamento de dados. O formulário se atualiza de forma inteligente com base em suas seleções para o tipo de armazenamento do Azure e o tipo de autenticação. Consulte a seção de permissões e acesso ao armazenamento para entender onde encontrar as credenciais de autenticação necessárias para preencher este formulário.

    O exemplo a seguir demonstra a aparência do formulário quando você cria um armazenamento de dados de blob do Azure:

    Form for a new datastore

    Criar ativos de dados

    Depois de criar um armazenamento de dados, crie um conjunto de dados para interagir com seus dados. Os conjuntos de dados empacotam seus dados em um objeto consumível avaliado preguiçosamente para tarefas de aprendizado de máquina, como treinamento. Saiba mais sobre os conjuntos de dados.

    Existem dois tipos de conjuntos de dados, FileDataset e TabularDataset. FileDatasets criam referências a um ou vários arquivos ou URLs públicas. Enquanto TabularDatasets representam seus dados em um formato tabular. Você pode criar TabularDatasets a partir de arquivos .csv, .tsv, .parquet, .jsonl e de resultados de consulta SQL.

    As etapas a seguir descrevem como criar um conjunto de dados no estúdio do Azure Machine Learning.

    Nota

    Os conjuntos de dados criados por meio do estúdio do Azure Machine Learning são registrados automaticamente no espaço de trabalho.

    1. Navegue até o estúdio do Azure Machine Learning

    2. Em Ativos na navegação à esquerda, selecione Dados. Na guia Ativos de dados, selecione Criar This screenshot highlights Create in the Data assets tab.

    3. Dê ao seu ativo de dados um nome e uma descrição opcional. Em seguida, em Tipo, selecione um dos tipos de Conjunto de Dados, Arquivo ou Tabular. This screenshot shows set the name, description, and type of the data asset.

    4. Você tem algumas opções para sua fonte de dados. Se seus dados já estiverem armazenados no Azure, escolha "Do armazenamento do Azure". Se você quiser carregar dados de sua unidade local, escolha "De arquivos locais". Se os seus dados estiverem armazenados em um local da Web público, escolha "De arquivos da Web". Você também pode criar um ativo de dados a partir de um banco de dados SQL ou de Conjuntos de Dados Abertos do Azure.

    5. Para a etapa de seleção de arquivos, selecione onde você deseja que seus dados sejam armazenados no Azure e quais arquivos de dados você deseja usar.

      1. Habilite a validação de ignorar se seus dados estiverem em uma rede virtual. Saiba mais sobre isolamento e privacidade de rede virtual.
    6. Siga as etapas para definir as configurações e o esquema de análise de dados para seu ativo de dados. As configurações serão pré-preenchidas com base no tipo de arquivo e você pode definir ainda mais suas configurações antes de criar o ativo de dados.

    7. Depois de chegar à etapa Revisão, clique em Criar na última página

    Pré-visualização e perfil dos dados

    Depois de criar seu conjunto de dados, verifique se você pode visualizar a visualização e o perfil no estúdio com as seguintes etapas:

    1. Entre no estúdio do Azure Machine Learning
    2. Em Ativos na navegação à esquerda, selecione Dados. Screenshot highlights Create in the Data assets tab.
    3. Selecione o nome do conjunto de dados que deseja exibir.
    4. Selecione a guia Explorar .
    5. Selecione a guia Visualizar . Screenshot shows a preview of a dataset.
    6. Selecione a guia Perfil . Screenshot shows dataset column metadata in the Profile tab.

    Você pode obter uma grande variedade de estatísticas resumidas em todo o conjunto de dados para verificar se o conjunto de dados está pronto para ML. Para colunas não numéricas, elas incluem apenas estatísticas básicas, como min, max e contagem de erros. Para colunas numéricas, você também pode revisar seus momentos estatísticos e quantis estimados.

    Especificamente, o perfil de dados do conjunto de dados do Azure Machine Learning inclui:

    Nota

    Entradas em branco aparecem para recursos com tipos irrelevantes.

    Estatística Description
    Funcionalidade Nome da coluna que está sendo resumida.
    Profile Visualização em linha com base no tipo inferido. Por exemplo, strings, booleanos e datas terão contagens de valores, enquanto decimais (numéricos) terão histogramas aproximados. Isso permite que você obtenha uma rápida compreensão da distribuição dos dados.
    Distribuição de tipo Contagem de valores em linha de tipos dentro de uma coluna. Nulos são seu próprio tipo, portanto, essa visualização é útil para detetar valores ímpares ou ausentes.
    Type Tipo inferido da coluna. Os valores possíveis incluem: strings, booleanos, datas e decimais.
    Min Valor mínimo da coluna. Entradas em branco aparecem para recursos cujo tipo não tem uma ordem inerente (como, booleanos).
    Máx Valor máximo da coluna.
    Count Número total de entradas em falta e não em falta na coluna.
    Contagem não faltando Número de entradas na coluna que não faltam. Cadeias de caracteres vazias e erros são tratados como valores, portanto, não contribuirão para a "contagem não faltante".
    Quantis Valores aproximados em cada quantil para fornecer uma noção da distribuição dos dados.
    Média Média aritmética ou média da coluna.
    Desvio padrão Medida da quantidade de dispersão ou variação dos dados desta coluna.
    Desvio Medir a distância entre os dados desta coluna e o seu valor médio.
    Assimetria Medida de quão diferentes são os dados desta coluna de uma distribuição normal.
    Kurtosis Medida de quão fortemente caudados os dados desta coluna são comparados com uma distribuição normal.

    Acesso e permissões de armazenamento

    Para garantir que você se conecte com segurança ao seu serviço de armazenamento do Azure, o Azure Machine Learning exige que você tenha permissão para acessar o armazenamento de dados correspondente. Esse acesso depende das credenciais de autenticação usadas para registrar o armazenamento de dados.

    Rede virtual

    Se sua conta de armazenamento de dados estiver em uma rede virtual, etapas de configuração adicionais serão necessárias para garantir que o Azure Machine Learning tenha acesso aos seus dados. Consulte Usar o estúdio do Azure Machine Learning em uma rede virtual para garantir que as etapas de configuração apropriadas sejam aplicadas quando você cria e registra seu armazenamento de dados.

    Validação de acesso

    Aviso

    Não há suporte para acesso entre locatários a contas de armazenamento. Se o acesso entre locatários for necessário para o seu cenário, entre em contato com o alias da equipe de Suporte de Dados do Azure Machine Learning em amldatasupport@microsoft.com para obter assistência com uma solução de código personalizado.

    Como parte do processo inicial de criação e registro do armazenamento de dados, o Aprendizado de Máquina do Azure valida automaticamente se o serviço de armazenamento subjacente existe e se a entidade de segurança fornecida pelo usuário (nome de usuário, entidade de serviço ou token SAS) tem acesso ao armazenamento especificado.

    Após a criação do armazenamento de dados, essa validação só é executada para métodos que exigem acesso ao contêiner de armazenamento subjacente, não sempre que os objetos do armazenamento de dados são recuperados. Por exemplo, a validação acontece se você quiser baixar arquivos do seu armazenamento de dados; Mas se você quiser apenas alterar seu armazenamento de dados padrão, a validação não acontecerá.

    Para autenticar seu acesso ao serviço de armazenamento subjacente, você pode fornecer sua chave de conta, tokens SAS (assinaturas de acesso compartilhado) ou entidade de serviço de acordo com o tipo de armazenamento de dados que deseja criar. A matriz de tipo de armazenamento lista os tipos de autenticação suportados que correspondem a cada tipo de armazenamento de dados.

    Você pode encontrar a chave da conta, o token SAS e as informações da entidade de serviço em seu portal do Azure.

    • Se você planeja usar uma chave de conta ou token SAS para autenticação, selecione Contas de Armazenamento no painel esquerdo e escolha a conta de armazenamento que deseja registrar.

      • A página Visão geral fornece informações como o nome da conta, o contêiner e o nome do compartilhamento de arquivos.
        1. Para chaves de conta, vá para Teclas de acesso no painel Configurações .
        2. Para tokens SAS, vá para Assinaturas de acesso compartilhado no painel Configurações .
    • Se você planeja usar uma entidade de serviço para autenticação, vá para seus registros de aplicativo e selecione qual aplicativo deseja usar.

      • A página Visão geral correspondente conterá informações necessárias, como ID do locatário e ID do cliente.

    Importante

    • Se você precisar alterar suas chaves de acesso para uma conta de Armazenamento do Azure (chave de conta ou token SAS), certifique-se de sincronizar as novas credenciais com seu espaço de trabalho e os armazenamentos de dados conectados a ele. Saiba como sincronizar suas credenciais atualizadas.

    • Se você cancelar o registro e registrar novamente um armazenamento de dados com o mesmo nome e ele falhar, o Cofre da Chave do Azure para seu espaço de trabalho pode não ter a exclusão suave habilitada. Por padrão, a exclusão suave está habilitada para a instância do cofre de chaves criada pelo seu espaço de trabalho, mas pode não ser habilitada se você tiver usado um cofre de chaves existente ou tiver um espaço de trabalho criado antes de outubro de 2020. Para obter informações sobre como ativar a exclusão suave, consulte Ativar a exclusão suave para um cofre de chaves existente.

    Permissões

    Para o contêiner de blob do Azure e o armazenamento do Azure Data Lake Gen 2, verifique se suas credenciais de autenticação têm acesso ao Leitor de Dados de Blob de Armazenamento . Saiba mais sobre o Storage Blob Data Reader. Um token SAS de conta tem como padrão nenhuma permissão.

    • Para acesso de leitura de dados, suas credenciais de autenticação devem ter um mínimo de permissões de lista e leitura para contêineres e objetos.

    • Para acesso de gravação de dados, permissões de gravação e adição também são necessárias.

    Preparar com conjuntos de dados

    Use seus conjuntos de dados em seus experimentos de aprendizado de máquina para treinar modelos de ML. Saiba mais sobre como treinar com conjuntos de dados.

    Próximos passos