Ligar aos dados com o estúdio do Azure Machine Learning

Neste artigo, saiba como aceder aos seus dados com o estúdio do Azure Machine Learning. Conecte-se aos seus dados nos serviços de armazenamento em Azure com as lojas de dados Azure Machine Learning e, em seguida, embale esses dados para tarefas nos seus fluxos de trabalho ML com conjuntos de dados de Aprendizagem de Máquinas Azure.

O quadro seguinte define e resume os benefícios das datastores e conjuntos de dados.

Objeto Description Benefícios
Arquivos de dados Ligue-se de forma segura ao seu serviço de armazenamento no Azure, armazenando as suas informações de ligação, como o seu ID de subscrição e a autorização simbólica no seu Key Vault associado ao espaço de trabalho Porque a sua informação está armazenada de forma segura,

  • Não coloque em risco credenciais de autenticação ou fontes de dados originais.
  • Já não precisas de os codificar nos teus scripts.
  • Conjuntos de dados Ao criar um conjunto de dados, cria uma referência para a localização da origem de dados, juntamente com uma cópia dos metadados. Com conjuntos de dados pode,

  • Aceder aos dados durante o treino de modelo.
  • Partilhe dados e colabore com outros utilizadores.
  • Use bibliotecas de código aberto, como pandas, para exploração de dados.
  • Como os conjuntos de dados são avaliados preguiçosamente, e os dados permanecem na sua localização existente, você

  • Guarde uma única cópia de dados no seu armazenamento.
  • Incorrem em nenhum custo extra de armazenamento
  • Não se arrisque a alterar involuntariamente as suas fontes de dados originais.
  • Melhorar as velocidades de desempenho do fluxo de trabalho da ML.
  • Para entender onde as datas e conjuntos de dados se encaixam no fluxo de trabalho global de acesso aos dados da Azure Machine Learning, consulte o artigo de dados de acesso seguro .

    Para uma primeira experiência de código, consulte os seguintes artigos para utilizar o Azure Machine Learning Python SDK para:

    Pré-requisitos

    • Uma subscrição do Azure. Se não tiver uma subscrição do Azure, crie uma conta gratuita antes de começar. Experimente a versão gratuita ou paga do Azure Machine Learning.

    • Acesso a estúdio do Azure Machine Learning.

    • Uma área de trabalho do Azure Machine Learning. Criar recursos de espaço de trabalho.

      • Quando cria um espaço de trabalho, um recipiente de blob Azure e uma partilha de ficheiros Azure são automaticamente registados como datastores para o espaço de trabalho. São nomeados workspaceblobstore e workspacefilestore, respectivamente. Se o armazenamento de bolhas for suficiente para as suas necessidades, o workspaceblobstore é definido como a datastore padrão, e já configurado para utilização. Caso contrário, necessita de uma conta de armazenamento no Azure com um tipo de armazenamento suportado.

    Criar datastores

    Pode criar datastores a partir destas soluções de armazenamento Azure. Para soluções de armazenamento não suportadas e para poupar o custo da saída de dados durante as experiências de ML, deve mover os seus dados para uma solução de armazenamento Azure suportada. Saiba mais sobre datastores.

    Pode criar datastores com acesso baseado em credenciais ou acesso baseado em identidade.

    Crie uma nova loja de dados em alguns passos com o estúdio do Azure Machine Learning.

    Importante

    Se a sua conta de armazenamento de dados estiver numa rede virtual, são necessários passos de configuração adicionais para garantir que o estúdio tem acesso aos seus dados. Consulte a privacidade do isolamento & da rede para garantir que são aplicadas as etapas de configuração adequadas.

    1. Inscreva-se na estúdio do Azure Machine Learning.
    2. Selecione Dados no painel esquerdo em Ativos.
    3. No topo, selecione Datastores.
    4. Selecione +Criar.
    5. Preencha o formulário para criar e registar uma nova datastore. O formulário atualiza-se inteligentemente com base nas suas seleções para o tipo de armazenamento Eszure e tipo de autenticação. Consulte a secção de acesso ao armazenamento e permissões para saber onde encontrar as credenciais de autenticação necessárias para preencher este formulário.

    O exemplo a seguir demonstra como é a forma quando cria uma loja de dados blob Azure:

    Formulário para uma nova loja de dados

    Criar ativos de dados

    Depois de criar uma datastore, crie um conjunto de dados para interagir com os seus dados. Os conjuntos de dados embalam os seus dados num objeto consumível avaliado preguiçosamente para tarefas de aprendizagem automática, como o treino. Saiba mais sobre os conjuntos de dados.

    Existem dois tipos de conjuntos de dados, Dataset de Ficheiros e Dataset Tabular. Os FileDatasets criam referências a ficheiros individuais ou múltiplos ou URLs públicos. Enquanto os Separadores TabularEs representam os seus dados num formato tabular. Pode criar Separadores Tabular a partir de .csv, ficheiros .tsv, .parquet, .jsonl e a partir dos resultados da consulta SQL.

    Os seguintes passos descrevem como criar um conjunto de dados em estúdio do Azure Machine Learning.

    Nota

    Os conjuntos de dados criados através de estúdio do Azure Machine Learning são automaticamente registados no espaço de trabalho.

    1. Navegue até estúdio do Azure Machine Learning

    2. Em Ativos na navegação à esquerda, selecione Dados. No separador 'Ativos de Dados', selecione Criar estes destaques de screenshot Criar no separador de ativos de Dados.

    3. Dê ao seu ativo de dados um nome e descrição opcional. Em seguida, em Type, selecione um dos tipos de Conjunto de Dados, ou Ficheiro ou Tabular. Esta imagem mostra definir o nome, descrição e tipo do ativo de dados.

    4. Tem algumas opções para a sua fonte de dados. Se os seus dados já estiverem armazenados no Azure, escolha "A partir do armazenamento da Azure". Se pretender fazer o upload dos dados da unidade local, escolha "A partir de ficheiros locais". Se os seus dados forem armazenados numa localização web pública, escolha "A partir de ficheiros web". Também pode criar um ativo de dados a partir de uma base de dados SQL, ou a partir de Conjuntos de Dados Azure Open.

    5. Para o passo de seleção de ficheiros, selecione onde pretende que os seus dados sejam armazenados no Azure e quais os ficheiros de dados que pretende utilizar.

      1. Ativar a validação do skip se os seus dados estiverem numa rede virtual. Saiba mais sobre o isolamento e privacidade da rede virtual.
    6. Siga os passos para definir as definições de análise de dados e esquema para o seu ativo de dados. As definições serão pré-povoadas com base no tipo de ficheiro e pode configurar ainda mais as suas definições antes de criar o ativo de dados.

    7. Assim que chegar ao passo de Avaliação, clique em Criar na última página

    Pré-visualização de dados e perfil

    Depois de criar o conjunto de dados, verifique se pode visualizar a pré-visualização e o perfil no estúdio com os seguintes passos:

    1. Inscreva-se no estúdio do Azure Machine Learning
    2. Em Ativos na navegação à esquerda, selecione Dados. Destaques de screenshot Criar no separador de ativos de dados.
    3. Selecione o nome do conjunto de dados que pretende visualizar.
    4. Selecione o separador Explore .
    5. Selecione o separador Pré-visualização . Screenshot mostra uma pré-visualização de um conjunto de dados.
    6. Selecione o separador Perfil . Screenshot mostra metadados da coluna de conjuntos de dados no separador Perfil.

    Pode obter uma grande variedade de estatísticas sumárias através do seu conjunto de dados para verificar se o seu conjunto de dados está pronto para ML. Para colunas não numéricas, incluem apenas estatísticas básicas como min, max e contagem de erros. Para colunas numéricas, também pode rever os seus momentos estatísticos e quânticos estimados.

    Especificamente, o perfil de dados do conjunto de dados de aprendizagem automática Azure inclui:

    Nota

    As entradas em branco aparecem para funcionalidades com tipos irrelevantes.

    Estatística Description
    Funcionalidade Nome da coluna que está a ser resumida.
    Perfil Visualização em linha com base no tipo inferido. Por exemplo, cordas, booleanas e datas terão contagens de valor, enquanto decimais (numéricos) têm histogramas aproximados. Isto permite-lhe obter uma compreensão rápida da distribuição dos dados.
    Distribuição de tipo Contagem de valores em linha de tipos dentro de uma coluna. Os nulos são do seu próprio tipo, pelo que esta visualização é útil para detetar valores ímpares ou em falta.
    Tipo Tipo inferido da coluna. Os valores possíveis incluem: cordas, booleans, datas e decimais.
    Mín Valor mínimo da coluna. As entradas em branco aparecem para funcionalidades cujo tipo não tem uma encomenda inerente (como, booleans).
    Máx Valor máximo da coluna.
    de palavras Número total de entradas desaparecidas e não desaparecidas na coluna.
    Não faltando a contagem Número de entradas na coluna que não faltam. Cordas e erros vazios são tratados como valores, para que não contribuam para a "contagem não em falta".
    Quantis Valores aproximados em cada quântil para fornecer uma sensação de distribuição dos dados.
    Média Média aritmética ou média da coluna.
    Desvio padrão Medida da quantidade de dispersão ou variação dos dados desta coluna.
    Variância Medida da distância que os dados desta coluna estão a partir do seu valor médio.
    Skewness Medida de quão diferentes os dados desta coluna são de uma distribuição normal.
    Kurtose Medida de quão fortemente seguido os dados desta coluna é comparado a uma distribuição normal.

    Acesso ao armazenamento e permissões

    Para garantir uma ligação segura ao seu serviço de armazenamento Azure, o Azure Machine Learning requer que tenha permissão para aceder ao armazenamento de dados correspondente. Este acesso depende das credenciais de autenticação utilizadas para registar a datastore.

    Rede virtual

    Se a sua conta de armazenamento de dados estiver numa rede virtual, são necessários passos de configuração extra para garantir que o Azure Machine Learning tenha acesso aos seus dados. Consulte a Utilização estúdio do Azure Machine Learning numa rede virtual para garantir que os passos de configuração apropriados são aplicados quando cria e regista a sua loja de dados.

    Validação de acesso

    Aviso

    O acesso do inquilino cruzado às contas de armazenamento não é suportado. Se for necessário o acesso do inquilino cruzado para o seu cenário, por favor contacte o pseudónimo da equipa de Suporte de Dados amldatasupport@microsoft.com AzureML para obter assistência com uma solução de código personalizada.

    Como parte do processo inicial de criação e registo da datastore, o Azure Machine Learning valida automaticamente que o serviço de armazenamento subjacente existe e que o utilizador fornecido principal (nome de utilizador, principal de serviço ou token SAS) tem acesso ao armazenamento especificado.

    Após a criação da datastore, esta validação é realizada apenas para métodos que requerem acesso ao recipiente de armazenamento subjacente, e não cada vez que os objetos da loja de dados são recuperados. Por exemplo, a validação acontece se pretender descarregar ficheiros da sua datastore; mas se quiser apenas alterar a sua datastore padrão, então a validação não acontece.

    Para autenticar o seu acesso ao serviço de armazenamento subjacente, pode fornecer a sua chave de conta, fichas de acesso partilhado (SAS) ou principal de serviço de acordo com o tipo de datastore que pretende criar. A matriz do tipo de armazenamento lista os tipos de autenticação suportados que correspondem a cada tipo de datastore.

    Pode encontrar a chave de conta, o token SAS e informações principais do serviço no seu portal do Azure.

    • Se pretender utilizar uma chave de conta ou um sinal SAS para autenticação, selecione Contas de Armazenamento no painel esquerdo e escolha a conta de armazenamento que pretende registar.

      • A página 'Vista Geral ' fornece informações como o nome da conta, o contentor e o nome da partilha de ficheiros.
        1. Para obter as teclas de conta, aceda às teclas de acesso no painel de Definições .
        2. Para fichas SAS, aceda a assinaturas de acesso compartilhadas no painel de Definições .
    • Se planeia utilizar um principal de serviço para autenticação, vá ao seu Registos de aplicações e selecione qual a aplicação que pretende utilizar.

      • A sua página de visão geral correspondente conterá informações necessárias, como iD do inquilino e identificação do cliente.

    Importante

    • Se precisar de alterar as suas teclas de acesso para uma conta de Armazenamento Azure (chave de conta ou token SAS), certifique-se de sincronizar as novas credenciais com o seu espaço de trabalho e as lojas de dados ligadas a ela. Saiba como sincronizar as suas credenciais atualizadas.

    • Se não registar e re-registar uma loja de dados com o mesmo nome, e falhar, o Key Vault Azure para o seu espaço de trabalho pode não ter a eliminação suave ativada. Por predefinição, a eliminação suave está ativada para a instância do cofre de chaves criada pelo seu espaço de trabalho, mas pode não ser ativada se utilizar um cofre de chaves existente ou se tiver um espaço de trabalho criado antes de outubro de 2020. Para obter informações sobre como permitir a eliminação suave, consulte Ativar o Soft Delete para obter um cofre de teclas existente.

    Permissões

    Para o recipiente Azure blob e o armazenamento Azure Data Lake Gen 2, certifique-se de que as suas credenciais de autenticação têm acesso ao Leitor de Dados Blob de Armazenamento . Saiba mais sobre o Storage Blob Data Reader. Uma conta SAS não tem permissões.

    • Para o acesso à leitura de dados, as suas credenciais de autenticação devem ter um mínimo de lista e ler permissões para contentores e objetos.

    • Para que os dados escrevam acesso, escreva e adicione permissões também são necessárias.

    Preparar com conjuntos de dados

    Utilize os seus conjuntos de dados nas suas experiências de aprendizagem automática para treinar modelos ML. Saiba mais sobre como treinar com conjuntos de dados.

    Passos seguintes