Conectar-se a dados com o Estúdio do Azure Machine Learning
Este artigo mostra como acessar seus dados com o Estúdio do Azure Machine Learning. Conecte-se aos seus dados nos serviços de armazenamento do Azure com os armazenamentos de dados do Azure Machine Learning. Em seguida, empacote esses dados para tarefas de fluxo de trabalho de ML com conjuntos de dados do Azure Machine Learning.
Esta tabela define e resume os benefícios de armazenamentos e conjuntos de dados.
Objeto | Descrição | Benefícios |
---|---|---|
Armazenamentos de dados | Para se conectar com segurança ao serviço de armazenamento no Azure, armazene suas informações de conexão (ID da assinatura, autorização de token etc.) no cofre de chaves associado ao workspace | Como suas informações são armazenadas com segurança, você não coloca credenciais de autenticação ou fontes de dados originais em risco e não precisa mais codificar esses valores nos seus scripts |
Conjunto de dados | A criação do conjunto de dados também cria uma referência para a localização da fonte de dados, junto com uma cópia dos metadados. Com os conjuntos de dados, você pode acessar os dados durante o treinamento de modelos, compartilhar dados e colaborar com outros usuários e usar bibliotecas de código aberto, como o Pandas, para a exploração de dados. | Como os conjuntos de dados são avaliados lentamente e os dados permanecem no respectivo local existente, você mantém uma só cópia de dados no armazenamento. Além disso, você não tem nenhum custo de armazenamento extra, evita alterações não intencionais nas fontes de dados originais e aprimora as velocidades de desempenho do fluxo de trabalho de ML. |
Para saber onde os armazenamentos de dados e os conjuntos de dados se enquadram no fluxo de trabalho geral de acesso a dados do Azure Machine Learning, visite Acessar dados com segurança.
Para obter mais informações sobre o SDK do Python do Azure Machine Learning e uma experiência code-first, confira:
- Conectar-se aos serviços de armazenamento do Azure com armazenamentos de dados
- Criar conjuntos de dados no Azure Machine Learning
Pré-requisitos
Uma assinatura do Azure. Se você não tiver uma assinatura do Azure, crie uma conta gratuita antes de começar. Experimente a versão paga ou gratuita do Azure Machine Learning
Acesso ao Estúdio do Azure Machine Learning
Um Workspace do Azure Machine Learning. Criar recursos do workspace
- Quando você cria um workspace, um contêiner de blobs do Azure e um compartilhamento de arquivos do Azure são automaticamente registrados no workspace como armazenamentos de dados. Seus nomes são
workspaceblobstore
eworkspacefilestore
, respectivamente. Para recursos suficientes de armazenamento de blobs, oworkspaceblobstore
é definido como o armazenamento de dados padrão, já configurado para uso. Se você precisar de mais recursos de armazenamento de blobs, precisará de uma conta de armazenamento do Azure, com um tipo de armazenamento com suporte.
- Quando você cria um workspace, um contêiner de blobs do Azure e um compartilhamento de arquivos do Azure são automaticamente registrados no workspace como armazenamentos de dados. Seus nomes são
Criar armazenamentos de dados
Você pode criar armazenamentos de dados dessas soluções de armazenamento do Azure. Para soluções de armazenamento sem suporte e para economizar o custo de saída de dados durante experimentos de ML, mova os dados para uma solução de armazenamento do Azure com suporte. Para obter mais informações sobre armazenamentos de dados, visite este recurso.
Você pode criar armazenamentos de dados com acesso baseado em credencial ou com acesso baseado em identidade.
Crie um armazenamento de dados com o Estúdio do Azure Machine Learning.
Importante
Se a conta de armazenamento de dados estiver localizada em uma rede virtual, serão necessárias etapas de configuração adicionais para garantir que o estúdio possa acessar seus dados. Visite Isolamento de rede e privacidade para obter mais informações sobre as etapas de configuração apropriadas.
- Entre no Estúdio do Azure Machine Learning.
- Selecione Dados no painel esquerdo em Ativos.
- Na parte superior, selecione Armazenamentos de Dados.
- Selecione +Criar.
- Preencha o formulário para criar e registrar um novo repositório de armazenamento. O formulário se atualiza de forma inteligente com base nas seleções de tipo de armazenamento e tipo de autenticação do Azure. Para obter mais informações sobre onde encontrar as credenciais de autenticação necessárias para preencher esse formulário, visite a seção Acesso e permissões de armazenamento.
Esta captura de tela mostra o painel de criação do armazenamento de dados de blob do Azure:
Criar ativos de dados
Depois de criar um armazenamento de dados, crie um conjunto de dados para interagir com os dados. Os conjuntos de dados empacotam seus dados em um objeto consumível avaliado lentamente para tarefas de aprendizado de máquina, por exemplo, treinamento. Visite Criar conjuntos de dados do Azure Machine Learning para obter mais informações sobre conjuntos de dados.
Os conjuntos de dados têm dois tipos: FileDataset e TabularDataset. Os FileDatasets criam referências a um ou vários arquivos ou a URLs públicas. TabularDatasets representam os dados em um formato de tabela. Você pode criar TabularDatasets com base em
- .csv
- .tsv
- .parquet
- arquivos .json e nos resultados da consulta SQL.
As etapas descrevem como criar um conjunto de dados no Estúdio do Azure Machine Learning.
Observação
Os conjuntos de dados criados por meio do Estúdio do Azure Machine Learning são automaticamente registrados no espaço de trabalho.
Navegue até o estúdio do Azure Machine Learning
Em Ativos no menu de navegação à esquerda, selecione Dados. Na guia Ativos de dados, selecione Criar
Dê um nome ao ativo de dados e uma descrição opcional. Em seguida, em Tipo, selecione um tipo de conjunto de dados: Arquivo ou Tabela.
O painel Fonte de dados será aberto em seguida, conforme mostrado nesta captura de tela:
Você tem opções diferentes para sua fonte de dados. Para dados já armazenados no Azure, escolha “Do Armazenamento do Azure”. Para carregar dados da unidade local, escolha “Dos arquivos locais”. No caso de dados armazenados em um local público da Web, escolha “De arquivos da Web”. Você também pode criar um ativo de dados de um banco de dados SQL ou de Conjuntos de Dados Abertos do Azure.
Na etapa de seleção de arquivo, selecione o local em que o Azure precisa armazenar seus dados e os arquivos de dados que deseja usar.
- Habilite ignorar validação se os dados estiverem em uma rede virtual. Saiba mais sobre o Isolamento e privacidade da rede virtual.
Siga as etapas para definir as configurações de análise de dados e o esquema do ativo de dados. As configurações são pré-preenchidas com base no tipo de arquivo e você pode definir outras configurações antes da criação do ativo de dados.
Quando chegar à etapa Revisar, selecione Criar na última página
Visualização de dados e perfil
Depois de criar seu conjunto de dados, verifique se você pode exibir a visualização e o perfil no estúdio:
- Entre no Estúdio do Azure Machine Learning
- Em Ativos no menu de navegação à esquerda, selecione Dados.
- Selecione o nome do conjunto de dados que deseja exibir.
- Selecione a guia Explorar .
- Selecione a guia Visualização.
- Selecione a guia Perfil.
Você pode usar as estatísticas de resumo no seu conjunto de dados para verificar se o conjunto de dados está pronto para ML. Para colunas não numéricas, essas estatísticas incluem apenas estatísticas básicas: por exemplo, contagem mínima, máxima e de erros. As colunas numéricas oferecem momentos estatísticos e quantils estimados.
O perfil de dados do conjunto de dados do Azure Machine Learning inclui:
Observação
Entradas em branco são exibidas para recursos com tipos irrelevantes.
Estatística | Descrição |
---|---|
Recurso | O nome da coluna resumida |
Perfil | Visualização em linha baseada no tipo inferido. Cadeias de caracteres, boolianos e datas têm contagens de valor. Os decimais (numéricos) aproximaram os histogramas. Essas visualizações oferecem uma compreensão rápida da distribuição de dados |
Distribuição de tipos | Contagem de valor em linha de tipos dentro de uma coluna. Nulos são um tipo próprio. Portanto, essa visualização pode detectar valores ímpares ou ausentes |
Tipo | Tipo de coluna inferida. Os valores possíveis incluem: cadeias de caracteres, boolianos, datas e decimais |
Min | Valor mínimo da coluna. Entradas em branco são exibidas para recursos cujo tipo não tem uma ordenação inerente (por exemplo, boolianos) |
Max | Valor máximo da coluna. |
Count | Número total de entradas ausentes e não ausentes na coluna |
Sem contagem faltando | Quantidade de entradas na coluna que não estão ausentes. Cadeias de caracteres e erros vazios são tratados como valores. Portanto, eles não contribuem para a “contagem de não ausentes”. |
Quantis | Valores aproximados em cada quantil, para fornecer uma noção da distribuição dos dados |
Mean | Média aritmética ou média da coluna |
Desvio padrão | Medida da quantidade de dispersão ou variação dos dados dessa coluna |
Variação | Medida da dispersão dos dados dessa coluna com base no valor médio |
Distorção | Mede a diferença entre os dados desta coluna e uma distribuição normal |
Curtose | Mede o grau de “sobra” dos dados dessa coluna, em comparação com uma distribuição normal |
Acesso e permissões de armazenamento
Para garantir que você se conecte com segurança ao serviço de armazenamento do Azure, o Azure Machine Learning exige que você tenha permissão para acessar o armazenamento de dados correspondente. Esse acesso depende das credenciais de autenticação usadas para registrar o armazenamento de dados.
Rede virtual
Se a conta de armazenamento de dados estiver em uma rede virtual, serão necessárias etapas de configuração extras para garantir que o Azure Machine Learning tenha acesso aos dados. Consulte Usar o Estúdio do Azure Machine Learning em uma rede virtual para garantir que as etapas de configuração apropriadas sejam aplicadas ao criar e registrar seu armazenamento de dados.
Validação de acesso
Aviso
Não há suporte para acesso entre locatários a contas de armazenamento. Se o seu cenário precisar do acesso entre locatários, entre em contato com o alias da equipe de Suporte de Dados do Azure Machine Learning em amldatasupport@microsoft.com para obter assistência com uma solução de código personalizada.
Como parte do processo inicial de criação e registro do armazenamento de dados, o Azure Machine Learning verifica automaticamente se o serviço de armazenamento subjacente existe e se a entidade de segurança fornecida pelo usuário (nome de usuário, entidade de serviço ou token SAS) tem acesso ao armazenamento especificado.
Após a criação do armazenamento de dados, essa validação só é executada para métodos que exigem acesso ao contêiner de armazenamento subjacente. A validação não é executada toda vez que os objetos de armazenamento de dados são recuperados. Por exemplo, a validação ocorrerá quando você quiser baixar arquivos do armazenamento de dados. No entanto, se você quiser alterar o armazenamento de dados padrão, a validação não ocorrerá.
Para autenticar o acesso ao serviço de armazenamento subjacente, forneça sua chave de conta, tokens SAS (Assinaturas de Acesso Compartilhado) ou entidade de serviço, de acordo com o tipo de armazenamento de dados que deseja criar. A matriz de tipo de armazenamento lista os tipos de autenticação com suporte correspondentes a cada tipo de armazenamento de dados.
Encontre as informações da chave de conta, do token SAS e da entidade de serviço no portal do Azure.
Para obter uma chave de conta para autenticação, selecione Contas de armazenamento no painel esquerdo e escolha a conta de armazenamento que deseja registrar
- A página Visão Geral fornece informações como o nome da conta, o contêiner e o nome do compartilhamento de arquivo.
- Expanda o nó Segurança + rede no menu de navegação à esquerda
- Selecione Chaves de acesso
- Os valores de chave disponíveis servem como valores de Chave de conta
Para obter um token SAS para autenticação, selecione Contas de Armazenamento no painel esquerdo e escolha a conta de armazenamento desejada
- Para obter um valor de Chave de acesso, expanda o nó Segurança + rede no menu de navegação à esquerda
- Selecione Assinatura de Acesso Compartilhado
- Conclua o processo para gerar o valor da SAS
Para usar uma entidade de serviço para autenticação, acesse Registros de aplicativo e selecione o aplicativo que deseja usar.
- A página Visão Geral correspondente contém as informações necessárias, como as IDs do locatário e do cliente.
Importante
- Para alterar suas chaves de acesso para uma conta de Armazenamento do Azure (chave de conta ou token SAS), lembre-se de sincronizar as novas credenciais com o workspace e os armazenamentos de dados conectados com ele. Para obter mais informações, acesse Sincronizar suas credenciais atualizadas.
- Se você cancelar e refizer o registro de um armazenamento de dados com o mesmo nome e ocorrer uma falha, talvez o Azure Key Vault do workspace não tenha o recurso de exclusão temporária habilitado. Por padrão, a exclusão reversível está habilitada para a instância do cofre de chaves criada pelo o workspace, mas poderá não ser habilitada caso tenha usado um cofre de chaves existente ou tenha um workspace criado antes de outubro de 2020. Para obter mais informações sobre como habilitar a exclusão temporária, visite Ativar a exclusão temporária de um cofre de chaves existente.
Permissões
No caso de um contêiner de blobs do Azure e de um armazenamento do Azure Data Lake Gen 2, verifique se as credenciais de autenticação têm o acesso de Leitor de Dados do Blob de Armazenamento. Saiba mais sobre o Leitor de Dados do Storage Blob. Por padrão, um token SAS de conta não tem nenhuma permissão.
Para acesso de leiturade dados, as credenciais de autenticação devem ter um mínimo de permissões de lista e leitura para contêineres e objetos.
Para acesso de gravaçãode dados, também são necessárias permissões de gravação e adição.
Treinar com conjuntos de dados
Use seus conjuntos de dados em experimentos de machine learning para o treinamento de modelos de ML. Saiba mais sobre como treinar com conjuntos de dados.
Próximas etapas
Um exemplo passo a passo de treinamento com TabularDatasets e machine learning automatizado
Para obter mais exemplos de treinamento de conjunto de dados, consulte notebooks de exemplo