Dados no Azure Machine Learning v1

Artigo
05/23/2023

APLICA-SE A:Extensão ml da CLI do Azure v1

Azure Machine Learning facilita a conexão com seus dados na nuvem. Ele fornece uma camada de abstração sobre o serviço de armazenamento subjacente, para que você possa acessar e trabalhar com segurança com seus dados sem precisar escrever código específico ao seu tipo de armazenamento. O Azure Machine Learning também fornece os seguintes recursos de dados:

Interoperabilidade com pandas e Spark dataframes
Controle de versão e acompanhamento de linhagem de dados
Rotulagem de dados
Monitoramento de dessincronização de dados

Fluxo de trabalho.

Quando você estiver pronto para usar os dados em sua solução de armazenamento baseada em nuvem, recomendamos o seguinte fluxo de trabalho de entrega de dados. Este fluxo de trabalho pressupõe que você tenha uma conta de armazenamento do Azure e dados em um serviço de armazenamento baseado em nuvem no Azure.

Crie um armazenamento de dados do Azure Machine Learning para armazenar informações de conexão com o armazenamento do Azure.
Nesse datastore, crie um conjunto de Azure Machine Learning para apontar para um ou mais arquivos em seu armazenamento subjacente.
Para usar esse conjunto de informações em seu experimento do Machine Learning, você pode
- Monte-o no destino de computação do experimento para o treinamento do modelo.
  
  OR
- Consuma-o diretamente em soluções de Azure Machine Learning como, execuções de experimento automatizadas do Machine Learning (ML automatizado), pipelines de aprendizado de máquina ou Designer de Azure Machine Learning.
Crie monitores de conjunto de dados para seu conjunto de dados de saída de modelo para detectar descompassos de dados
Se a descompasso de dados for detectada, atualize o DataSet de entrada e retreine seu modelo de acordo.

O diagrama a seguir fornece uma demonstração visual desse fluxo de trabalho recomendado.

O diagrama mostra o serviço de armazenamento do Azure que flui em um repositório de armazenamento, que flui para um conjunto de uma.

Conecte-se ao armazenamento com armazenamento de dados

Azure Machine Learning armazenamentos de dados mantêm com segurança as informações de conexão para o armazenamento de seu dado no Azure, de modo que você não precisará codificar em seus scripts. Registre e crie um armazenamento de dados para se conectar facilmente à sua conta de armazenamento e acessar os dados em seu serviço de armazenamento subjacente.

Serviços de armazenamento baseados em nuvem com suporte no Azure que podem ser registrados como armazenamentos de dados:

Contêiner de Blob do Azure
Compartilhamento de arquivos do Azure
Azure Data Lake
Azure Data Lake Gen2
Banco de Dados SQL do Azure
Banco de Dados do Azure para PostgreSQL
Sistema de arquivos do Databricks
Banco de Dados do Azure para MySQL

Dica

Você pode criar armazenamentos de dados com a autenticação baseada em credenciais para acessar serviços de armazenamento, como uma entidade de serviço ou um token SAS (Assinatura de Acesso Compartilhado). Essas credenciais podem ser acessadas por usuários que têm acesso de Leitor ao workspace.

Se isso for uma preocupação, crie um armazenamento de dados que use o acesso a dados baseado em identidade para conexão aos serviços de armazenamento.

Dados de referência no armazenamento com conjuntos de dados

Azure Machine Learning conjuntos de dados não são cópias de seus dados. Ao criar um conjunto de dados, você cria uma referência aos dados em seu serviço de armazenamento, junto com uma cópia de seus metadados.

Como os conjuntos de dados são avaliados lentamente, e os dados permanecem no local existente,

não incorrerá nenhum custo de armazenamento extra.
Não arrisque mudar sem querer suas fontes de dados originais.
Aprimore as velocidades de desempenho do fluxo de trabalho do ML.

Para interagir com seus dados no armazenamento, crie um conjunto de dados para empacotá-los em um objeto consumível para tarefas de aprendizado de máquina. Registre o conjunto de dados em seu workspace para compartilhá-lo e reutilizar em diferentes experimentos sem complexidades de ingestão de dados.

Os conjuntos de dados podem ser criados a partir de arquivos locais, URLs públicas, Azure Open Datasetsou serviços de armazenamento do Azure por meio de armazenamentos de dados.

Existem dois tipos de conjuntos de dados:

Um FileDataset faz referência a um ou a vários arquivos em seus armazenamentos de dados ou URLs públicas. Se seus dados já estiverem limpos e prontos para uso em experimentos de treinamento, você pode baixar ou montar arquivos referenciados por FileDatasets para seu destino de computação.
Um TabularDataset representa dados em um formato de tabela, com base na análise dos arquivos fornecidos. Você pode carregar um TabularDataset em um DataFrame pandas ou Spark para manipulação e limpeza posteriores. Para ver uma lista completa de formatos de dados com base em TabularDatasets, consulte a classe TabularDatasetFactory.

Recursos adicionais de conjuntos de dados podem ser encontrados na documentação a seguir:

Versão e acompanhamento da linhagem do conjuntos de dados.
Monitore seu conjuntos de dados para ajudar na detecção de desconjunto de dados.

Trabalhe com seus dados

Com conjuntos de informações, você pode realizar várias tarefas de aprendizado de máquina por meio de integração direta com recursos de Azure Machine Learning.

Criar um projeto de rotulagem de dados.
Compilar modelos de aprendizado de máquina:
Acesse conjuntos de informações para pontuação com inferência de lote em pipelines de Machine Learning.
Configure um monitor de conjunto de dados para a detecção de descompasso de dados.

Rotular dados com projetos de rótulos de dados

Rotular grandes quantidades de dados costuma ser uma dor de cabeça nos projetos de aprendizado de máquina. Aqueles com um componente de visão computacional, como classificação de imagem ou detecção de objeto, geralmente requerem milhares de imagens e rótulos correspondentes.

O Azure Machine Learning oferece uma localização central para criar, gerenciar e monitorar projetos de rotulagem. Os projetos de rotulagem ajudam a coordenar os dados, os rótulos e os membros da equipe, permitindo que você gerencie com mais eficiência as tarefas de rotulagem. Atualmente, as tarefas compatíveis são a classificação de imagem (seja ela de vários rótulos ou de várias classes) e a identificação de objetos usando caixas delimitadas.

Crie um projeto de rotulagem de imagemou projeto de rotulagem de texto e gere um conjunto de dados para uso em experimentos de aprendizado de máquina.

Monitorar o desempenho do modelo com descompasso de dados

No contexto do aprendizado de máquina, o desvio de dados é a mudança nos dados de entrada do modelo que leva à degradação do desempenho do modelo. É um dos principais motivos pelos quais a precisão do modelo diminui ao longo do tempo, o que monitora a descompasso de dados ajuda a detectar problemas de desempenho do modelo.

Consulte o artigo criar um conjunto de dados para saber mais sobre como detectar e alertar a descompasso de dados em novos dados em um DataSet.

Próximas etapas

Crie um conjunto de um DataSet no Azure Machine Learning Studio ou com o SDK do Python usando estas etapas.
Experimente exemplos de treinamento de conjunto de anotações com nossos notebooks de exemplo.