Dados no Azure Machine Learning v1

APLICA-SE A:Extensão de ml da CLI do Azure v1

APLICA-SE A:SDK python azureml v1

O Azure Machine Learning facilita a ligação aos seus dados na cloud. Fornece uma camada de abstração sobre o serviço de armazenamento subjacente, para que possa aceder e trabalhar com os seus dados de forma segura sem ter de escrever código específico para o seu tipo de armazenamento. O Azure Machine Learning também fornece as seguintes capacidades de dados:

  • Interoperabilidade com DataFrames do Pandas e do Spark
  • Controlo de versões e controlo da linhagem de dados
  • Identificação de dados
  • Monitorização de desvios de dados

Fluxo de trabalho de dados

Quando estiver pronto para utilizar os dados na sua solução de armazenamento baseada na cloud, recomendamos o seguinte fluxo de trabalho de entrega de dados. Este fluxo de trabalho pressupõe que tem uma conta de armazenamento do Azure e dados num serviço de armazenamento baseado na cloud no Azure.

  1. Crie um arquivo de dados do Azure Machine Learning para armazenar informações de ligação ao seu armazenamento do Azure.

  2. A partir desse arquivo de dados, crie um conjunto de dados do Azure Machine Learning para apontar para um(s) ficheiro(s) específico(s) no armazenamento subjacente.

  3. Para utilizar esse conjunto de dados na sua experimentação de machine learning, pode

    • Monte-o no destino de computação da experimentação para preparação de modelos.

      OR

    • Consuma-o diretamente em soluções do Azure Machine Learning, como execuções de experimentação de machine learning automatizado (ML automatizado), pipelines de machine learning ou o estruturador do Azure Machine Learning.

  4. Crie monitores de conjuntos de dados para o conjunto de dados de saída do modelo para detetar o desfasamento de dados.

  5. Se for detetado um desfasamento de dados, atualize o conjunto de dados de entrada e volte a preparar o modelo em conformidade.

O diagrama seguinte fornece uma demonstração visual deste fluxo de trabalho recomendado.

Diagrama a mostrar o Serviço de Armazenamento do Azure que flui para um arquivo de dados, que flui para um conjunto de dados.

Ligar ao armazenamento com arquivos de dados

Os arquivos de dados do Azure Machine Learning mantêm em segurança as informações de ligação ao armazenamento de dados no Azure, para que não tenha de as codificar nos seus scripts. Registe e crie um arquivo de dados para ligar facilmente à sua conta de armazenamento e aceder aos dados no seu serviço de armazenamento subjacente.

Serviços de armazenamento baseados na cloud suportados no Azure que podem ser registados como arquivos de dados:

  • Contentor de Blobs do Azure
  • Partilha de Ficheiros do Azure
  • Azure Data Lake
  • Azure Data Lake Gen2
  • Base de Dados SQL do Azure
  • Base de Dados do Azure para PostgreSQL
  • Sistema de Ficheiros do Databricks
  • Base de Dados do Azure para MySQL

Dica

Pode criar arquivos de dados com autenticação baseada em credenciais para aceder a serviços de armazenamento, como um principal de serviço ou um token de assinatura de acesso partilhado (SAS). Estas credenciais podem ser acedidas por utilizadores que têm acesso de Leitor à área de trabalho.

Se for uma preocupação, crie um arquivo de dados que utilize o acesso a dados baseados em identidade para ligar aos serviços de armazenamento.

Dados de referência no armazenamento com conjuntos de dados

Os conjuntos de dados do Azure Machine Learning não são cópias dos seus dados. Ao criar um conjunto de dados, cria uma referência aos dados no respetivo serviço de armazenamento, juntamente com uma cópia dos respetivos metadados.

Uma vez que os conjuntos de dados são avaliados de forma preguiçosa e os dados permanecem na respetiva localização existente, o utilizador

  • Não incorre em custos de armazenamento adicionais.
  • Não se arrisque a alterar involuntariamente as origens de dados originais.
  • Melhorar as velocidades de desempenho do fluxo de trabalho de ML.

Para interagir com os seus dados no armazenamento, crie um conjunto de dados para empacotar os seus dados num objeto consumível para tarefas de machine learning. Registe o conjunto de dados na área de trabalho para partilhá-lo e reutilizá-lo em diferentes experimentações sem complexidades de ingestão de dados.

Os conjuntos de dados podem ser criados a partir de ficheiros locais, URLs públicos, Conjuntos de Dados Abertos do Azure ou serviços de armazenamento do Azure através de arquivos de dados.

Existem dois tipos de conjuntos de dados:

  • Um FileDataset referencia ficheiros individuais ou múltiplos nos seus arquivos de dados ou URLs públicos. Se os seus dados já estiverem limpos e prontos para serem utilizados em experimentações de preparação, pode transferir ou montar ficheiros referenciados por FileDatasets para o seu destino de computação.

  • Um TabularDataset representa os dados num formato tabular ao analisar o ficheiro fornecido ou a lista de ficheiros. Pode carregar um TabularDataset para um pandas ou Spark DataFrame para maior manipulação e limpeza. Para obter uma lista completa dos formatos de dados a partir dos quais pode criar TabularDatasets, consulte a classe TabularDatasetFactory.

Pode encontrar funcionalidades de conjuntos de dados adicionais na seguinte documentação:

Trabalhar com os seus dados

Com os conjuntos de dados, pode realizar várias tarefas de machine learning através da integração totalmente integrada com as funcionalidades do Azure Machine Learning.

Etiquetar dados com projetos de etiquetagem de dados

A etiquetagem de grandes quantidades de dados tem sido, muitas vezes, uma dor de cabeça em projetos de machine learning. As pessoas com um componente de imagem digitalizada, como a classificação de imagens ou a deteção de objetos, geralmente necessitam de milhares de imagens e etiquetas correspondentes.

O Azure Machine Learning dá-lhe uma localização central para criar, gerir e monitorizar projetos de etiquetagem. Os projetos de etiquetagem ajudam a coordenar os dados, as etiquetas e os membros da equipa, permitindo-lhe gerir as tarefas de etiquetagem de forma mais eficiente. As tarefas atualmente suportadas são a classificação de imagens, de várias etiquetas ou de várias classes, e a identificação de objetos com caixas vinculadas.

Crie um projeto de etiquetagem de imagens ou um projeto de etiquetagem de texto e produza um conjunto de dados para utilização em experimentações de machine learning.

Monitorizar o desempenho do modelo com o desfasamento de dados

No contexto da aprendizagem automática, o desfasamento de dados é a alteração nos dados de entrada do modelo que leva à degradação do desempenho do modelo. É um dos principais motivos pelos quais a precisão do modelo se degrada ao longo do tempo, pelo que monitorizar o desfasamento de dados ajuda a detetar problemas de desempenho do modelo.

Veja o artigo Criar um monitor de conjuntos de dados para saber mais sobre como detetar e alertar para o desfasamento de dados em novos dados num conjunto de dados.

Passos seguintes