Dados no Azure Machine Learning v1
APLICA-SE A: Extensão de ML da CLI do Azure v1
APLICA-SE A: SDK do Python azureml v1
Azure Machine Learning facilita a conexão com seus dados na nuvem. Ele fornece uma camada de abstração sobre o serviço de armazenamento subjacente, para que você possa acessar e trabalhar com segurança com seus dados sem precisar escrever código específico ao seu tipo de armazenamento. O Azure Machine Learning também fornece estes recursos de dados:
- Interoperabilidade com pandas e Spark dataframes
- Controle de versão e acompanhamento de linhagem de dados
- Rotulagem de dados
- Monitoramento de dessincronização de dados
Fluxo de trabalho.
Para usar os dados em sua solução de armazenamento baseada em nuvem, recomendamos esse fluxo de trabalho de entrega de dados. O fluxo de trabalho pressupõe que você tenha uma conta de armazenamento do Azure e dados em um serviço de armazenamento baseado em nuvem no Azure.
Criar um armazenamento de dados do Azure Machine Learning para armazenar informações de conexão com o armazenamento do Azure
Nesse armazenamento de dados, crie um conjunto de dados do Azure Machine Learning para apontar para um ou mais arquivos específicos em seu armazenamento subjacente
Para usar esse conjunto de dados em seu experimento de aprendizado de máquina, você pode
Montar o conjunto de dados no destino de computação do seu experimento para treinamento de modelo
OR
Consuma o conjunto de dados diretamente em soluções do Azure Machine Learning, por exemplo, execuções de experimento de machine learning automatizado (ML automatizado), pipelines de aprendizado de máquina ou o designer de Azure Machine Learning.
Crie monitores de conjunto de dados para seu conjunto de dados de saída do modelo para detectar descompassos de dados
Para detectar descompasso de dados, atualize o conjunto de dados de entrada e treine novamente seu modelo conforme necessário
Esta captura de tela mostra o fluxo de trabalho recomendado:
Conecte-se ao armazenamento com armazenamento de dados
Os armazenamentos de dados do Azure Machine Learning hospedam com segurança suas informações de conexão de armazenamento de dados no Azure, para que você não precise colocar essas informações em seus scripts. Para obter mais informações sobre como se conectar a uma conta de armazenamento e acessar dados em seu serviço de armazenamento subjacente, visite Registrar e criar um armazenamento de dados.
Esses serviços de armazenamento baseados em nuvem do Azure com suporte podem ser registrados como armazenamentos de dados:
- Contêiner de Blob do Azure
- Compartilhamento de arquivos do Azure
- Azure Data Lake
- Azure Data Lake Gen2
- Banco de Dados SQL do Azure
- Banco de Dados do Azure para PostgreSQL
- Sistema de arquivos do Databricks
- Banco de Dados do Azure para MySQL
Dica
Você pode criar armazenamentos de dados com a autenticação baseada em credenciais para acessar serviços de armazenamento, por exemplo, uma entidade de serviço ou um token SAS (Assinatura de Acesso Compartilhado). Os usuários com acesso de Leitura ao workspace podem acessar essas credenciais.
Se isso for uma preocupação, visite Criar um armazenamento de dados que use acesso a dados baseados em identidade para obter mais informações sobre conexões com serviços de armazenamento.
Dados de referência no armazenamento com conjuntos de dados
Azure Machine Learning conjuntos de dados não são cópias de seus dados. A própria criação do conjunto de dados cria uma referência aos dados em seu serviço de armazenamento, junto com uma cópia de seus metadados.
Como os conjuntos de dados são avaliados lentamente, e os dados permanecem em seu local existente, você
- Não incorra em nenhum custo de armazenamento extra
- Não arrisque alterações não intencionais em suas fontes de dados originais
- Aprimorar as velocidades de desempenho do fluxo de trabalho do ML
Para interagir com seus dados no armazenamento, crie um conjunto de dados para empacotá-los em um objeto consumível para tarefas de aprendizado de máquina. Registre o conjunto de dados em seu workspace para compartilhá-lo e reutilizar em diferentes experimentos sem complicações de ingestão de dados.
Você pode criar conjuntos de dados a partir de arquivos locais, URLs públicas, do Azure Open Datasets ou dos serviços de armazenamento do Azure por meio de armazenamentos de dados.
Existem dois tipos de conjuntos de dados:
Um FileDataset faz referência a um ou a vários arquivos em seus armazenamentos de dados ou URLs públicas. Se seus dados já estiverem limpos e prontos para os experimentos de treinamento, você pode baixar ou montar arquivos referenciados pelos FileDatasets para seu destino de computação
Um TabularDataset representa dados em um formato tabular, com base na análise dos arquivos fornecidos. Você pode carregar um TabularDataset em um DataFrame pandas ou Spark para manipulação e limpeza posteriores. Para ver uma lista completa de formatos de dados dos quais você pode criar TabularDatasets, visite a classe TabularDatasetFactory
Esses recursos oferecem mais informações sobre os recursos do conjunto de dados:
- Versão e acompanhamento da linhagem do conjuntos de dados
- Monitore seu conjuntos de dados para ajudar na detecção de descompasso de dados
Trabalhe com seus dados
Com os conjuntos de dados, você pode realizar tarefas de aprendizado de máquina por meio de integração direta com recursos do Azure Machine Learning.
- Criar um projeto de rotulagem de dados
- Compilar modelos de aprendizado de máquina:
- Acesse conjuntos de dados para pontuação com inferência de lote em pipelines de aprendizado de máquina
- Configure um monitor de conjunto de dados para detectar descompassos de dados
Rotular dados com projetos de rótulos de dados
Rotular grandes volumes de dados em projetos de machine learning pode se tornar uma dor de cabeça. Os projetos que envolvem um componente da pesquisa visual computacional, como a classificação de imagem ou a detecção de objetos, geralmente exige milhares de imagens e os rótulos correspondentes.
O Azure Machine Learning oferece uma localização central para criar, gerenciar e monitorar projetos de rotulagem. Os projetos de rotulagem ajudam a coordenar os dados, os rótulos e os membros da equipe para que você gerencie com mais eficiência as tarefas de rotulagem. Atualmente, as tarefas compatíveis envolvem a classificação de imagem (seja ela de vários rótulos ou de várias classes) e a identificação de objetos usando caixas delimitadas.
Crie um projeto de rotulagem de imagemou projeto de rotulagem de texto e gere um conjunto de dados para uso em experimentos de aprendizado de máquina.
Monitorar o desempenho do modelo com descompasso de dados
No contexto do aprendizado de máquina, o descompasso de dados envolve a mudança nos dados de entrada do modelo que leva à degradação do desempenho do modelo. É um dos principais motivos pelos quais a precisão do modelo se degrada ao longo do tempo e o monitoramento do descompasso de dados ajuda a detectar problemas de desempenho do modelo.
Para obter mais informações, visite Criar um monitor de conjunto de dados para saber como detectar e alertar sobre o descompasso de dados em novos dados em um conjunto de dados.
Próximas etapas
- Criar um conjunto de dados no Estúdio do Azure Machine Learning ou com o SDK do Python
- Experimente exemplos de treinamento de conjunto de dados com nossos notebooks de exemplo