Dados no Azure Machine Learning v1

Artigo
09/04/2024

APLICA-SE A: Extensão de ML da CLI do Azure v1

APLICA-SE A: SDK do Python azureml v1

Azure Machine Learning facilita a conexão com seus dados na nuvem. Ele fornece uma camada de abstração sobre o serviço de armazenamento subjacente, para que você possa acessar e trabalhar com segurança com seus dados sem precisar escrever código específico ao seu tipo de armazenamento. O Azure Machine Learning também fornece estes recursos de dados:

Interoperabilidade com pandas e Spark dataframes
Controle de versão e acompanhamento de linhagem de dados
Rotulagem de dados
Monitoramento de dessincronização de dados

Fluxo de trabalho.

Para usar os dados em sua solução de armazenamento baseada em nuvem, recomendamos esse fluxo de trabalho de entrega de dados. O fluxo de trabalho pressupõe que você tenha uma conta de armazenamento do Azure e dados em um serviço de armazenamento baseado em nuvem no Azure.

Criar um armazenamento de dados do Azure Machine Learning para armazenar informações de conexão com o armazenamento do Azure
Nesse armazenamento de dados, crie um conjunto de dados do Azure Machine Learning para apontar para um ou mais arquivos específicos em seu armazenamento subjacente
Para usar esse conjunto de dados em seu experimento de aprendizado de máquina, você pode
- Montar o conjunto de dados no destino de computação do seu experimento para treinamento de modelo
  
  OR
- Consuma o conjunto de dados diretamente em soluções do Azure Machine Learning, por exemplo, execuções de experimento de machine learning automatizado (ML automatizado), pipelines de aprendizado de máquina ou o designer de Azure Machine Learning.
Crie monitores de conjunto de dados para seu conjunto de dados de saída do modelo para detectar descompassos de dados
Para detectar descompasso de dados, atualize o conjunto de dados de entrada e treine novamente seu modelo conforme necessário

Esta captura de tela mostra o fluxo de trabalho recomendado:

Conecte-se ao armazenamento com armazenamento de dados

Os armazenamentos de dados do Azure Machine Learning hospedam com segurança suas informações de conexão de armazenamento de dados no Azure, para que você não precise colocar essas informações em seus scripts. Para obter mais informações sobre como se conectar a uma conta de armazenamento e acessar dados em seu serviço de armazenamento subjacente, visite Registrar e criar um armazenamento de dados.

Esses serviços de armazenamento baseados em nuvem do Azure com suporte podem ser registrados como armazenamentos de dados:

Contêiner de Blob do Azure
Compartilhamento de arquivos do Azure
Azure Data Lake
Azure Data Lake Gen2
Banco de Dados SQL do Azure
Banco de Dados do Azure para PostgreSQL
Sistema de arquivos do Databricks
Banco de Dados do Azure para MySQL

Dica

Você pode criar armazenamentos de dados com a autenticação baseada em credenciais para acessar serviços de armazenamento, por exemplo, uma entidade de serviço ou um token SAS (Assinatura de Acesso Compartilhado). Os usuários com acesso de Leitura ao workspace podem acessar essas credenciais.

Se isso for uma preocupação, visite Criar um armazenamento de dados que use acesso a dados baseados em identidade para obter mais informações sobre conexões com serviços de armazenamento.

Dados de referência no armazenamento com conjuntos de dados

Azure Machine Learning conjuntos de dados não são cópias de seus dados. A própria criação do conjunto de dados cria uma referência aos dados em seu serviço de armazenamento, junto com uma cópia de seus metadados.

Como os conjuntos de dados são avaliados lentamente, e os dados permanecem em seu local existente, você

Não incorra em nenhum custo de armazenamento extra
Não arrisque alterações não intencionais em suas fontes de dados originais
Aprimorar as velocidades de desempenho do fluxo de trabalho do ML

Para interagir com seus dados no armazenamento, crie um conjunto de dados para empacotá-los em um objeto consumível para tarefas de aprendizado de máquina. Registre o conjunto de dados em seu workspace para compartilhá-lo e reutilizar em diferentes experimentos sem complicações de ingestão de dados.

Você pode criar conjuntos de dados a partir de arquivos locais, URLs públicas, do Azure Open Datasets ou dos serviços de armazenamento do Azure por meio de armazenamentos de dados.

Existem dois tipos de conjuntos de dados:

Um FileDataset faz referência a um ou a vários arquivos em seus armazenamentos de dados ou URLs públicas. Se seus dados já estiverem limpos e prontos para os experimentos de treinamento, você pode baixar ou montar arquivos referenciados pelos FileDatasets para seu destino de computação
Um TabularDataset representa dados em um formato tabular, com base na análise dos arquivos fornecidos. Você pode carregar um TabularDataset em um DataFrame pandas ou Spark para manipulação e limpeza posteriores. Para ver uma lista completa de formatos de dados dos quais você pode criar TabularDatasets, visite a classe TabularDatasetFactory

Esses recursos oferecem mais informações sobre os recursos do conjunto de dados:

Versão e acompanhamento da linhagem do conjuntos de dados
Monitore seu conjuntos de dados para ajudar na detecção de descompasso de dados

Trabalhe com seus dados

Com os conjuntos de dados, você pode realizar tarefas de aprendizado de máquina por meio de integração direta com recursos do Azure Machine Learning.

Criar um projeto de rotulagem de dados
Compilar modelos de aprendizado de máquina:
Acesse conjuntos de dados para pontuação com inferência de lote em pipelines de aprendizado de máquina
Configure um monitor de conjunto de dados para detectar descompassos de dados

Rotular dados com projetos de rótulos de dados

Rotular grandes volumes de dados em projetos de machine learning pode se tornar uma dor de cabeça. Os projetos que envolvem um componente da pesquisa visual computacional, como a classificação de imagem ou a detecção de objetos, geralmente exige milhares de imagens e os rótulos correspondentes.

O Azure Machine Learning oferece uma localização central para criar, gerenciar e monitorar projetos de rotulagem. Os projetos de rotulagem ajudam a coordenar os dados, os rótulos e os membros da equipe para que você gerencie com mais eficiência as tarefas de rotulagem. Atualmente, as tarefas compatíveis envolvem a classificação de imagem (seja ela de vários rótulos ou de várias classes) e a identificação de objetos usando caixas delimitadas.

Crie um projeto de rotulagem de imagemou projeto de rotulagem de texto e gere um conjunto de dados para uso em experimentos de aprendizado de máquina.

Monitorar o desempenho do modelo com descompasso de dados

No contexto do aprendizado de máquina, o descompasso de dados envolve a mudança nos dados de entrada do modelo que leva à degradação do desempenho do modelo. É um dos principais motivos pelos quais a precisão do modelo se degrada ao longo do tempo e o monitoramento do descompasso de dados ajuda a detectar problemas de desempenho do modelo.

Para obter mais informações, visite Criar um monitor de conjunto de dados para saber como detectar e alertar sobre o descompasso de dados em novos dados em um conjunto de dados.

Próximas etapas

Criar um conjunto de dados no Estúdio do Azure Machine Learning ou com o SDK do Python
Experimente exemplos de treinamento de conjunto de dados com nossos notebooks de exemplo

Compartilhar via