Partilhar via


Tutorial: Acessando dados do Azure Synapse ADLS Gen2 no Azure Machine Learning

Neste tutorial, iremos guiá-lo através do processo de acesso aos dados armazenados no Azure Synapse Azure Data Lake Storage Gen2 (ADLS Gen2) a partir do Azure Machine Learning (Azure Machine Learning). Esse recurso é especialmente valioso quando você pretende simplificar seu fluxo de trabalho de aprendizado de máquina aproveitando ferramentas como ML automatizado, rastreamento integrado de modelos e experiências ou hardware especializado, como GPUs disponíveis no Azure Machine Learning.

Para acessar os dados do ADLS Gen2 no Azure Machine Learning, criaremos um armazenamento de dados do Azure Machine Learning que aponta para a conta de armazenamento do Azure Synapse ADLS Gen2.

Pré-requisitos

  • Um espaço de trabalho do Azure Synapse Analytics. Verifique se ele tem uma conta de armazenamento do Azure Data Lake Storage Gen2 configurada como o armazenamento padrão. Para o sistema de arquivos Data Lake Storage Gen2 com o qual você trabalha, certifique-se de ser o Colaborador de Dados de Blob de Armazenamento.
  • Um espaço de trabalho do Azure Machine Learning.

Instalar bibliotecas

Primeiro, vamos instalar o azure-ai-ml pacote.

%pip install azure-ai-ml

Criar um Datastore

O Azure Machine Learning oferece um recurso conhecido como Datastore, que atua como uma referência à sua conta de armazenamento existente do Azure. Criaremos um Datastore que faça referência à nossa conta de armazenamento Azure Synapse ADLS Gen2.

Neste exemplo, criaremos um Datastore vinculado ao nosso armazenamento Azure Synapse ADLS Gen2. Depois de inicializar um MLClient objeto, você pode fornecer detalhes de conexão à sua conta ADLS Gen2. Finalmente, você pode executar o código para criar ou atualizar o Datastore.

from azure.ai.ml.entities import AzureDataLakeGen2Datastore
from azure.ai.ml import MLClient

ml_client = MLClient.from_config()

# Provide the connection details to your Azure Synapse ADLSg2 storage account
store = AzureDataLakeGen2Datastore(
    name="",
    description="",
    account_name="",
    filesystem=""
)

ml_client.create_or_update(store)

Você pode saber mais sobre como criar e gerenciar armazenamentos de dados do Azure Machine Learning usando este tutorial em armazenamentos de dados do Azure Machine Learning.

Monte sua conta de armazenamento ADLS Gen2

Depois de configurar seu armazenamento de dados, você pode acessar esses dados criando uma montagem para sua conta ADLSg2. No Azure Machine Learning, criar uma montagem para sua conta ADLS Gen2 implica estabelecer um vínculo direto entre seu espaço de trabalho e a conta de armazenamento, permitindo o acesso contínuo aos dados armazenados nele. Essencialmente, uma montagem atua como um caminho que permite que o Azure Machine Learning interaja com os arquivos e pastas em sua conta ADLS Gen2 como se eles fizessem parte do sistema de arquivos local em seu espaço de trabalho.

Depois que a conta de armazenamento estiver montada, você poderá ler, gravar e manipular facilmente os dados armazenados no ADLS Gen2 usando operações familiares do sistema de arquivos diretamente em seu ambiente do Azure Machine Learning, simplificando o pré-processamento de dados, o treinamento de modelos e as tarefas de experimentação.

Para tal:

  1. Inicie seu mecanismo de computação.

  2. Selecione Ações de dados e, em seguida, selecione Montar.

    Screenshot of Azure Machine Learning option to select data actions.

  3. A partir daqui, você deve ver e selecionar o nome da sua conta de armazenamento ADLSg2. Pode levar alguns momentos para que sua montagem seja criada.

  4. Quando a montagem estiver pronta, você poderá selecionar Ações de dados e, em seguida, Consumir. Em Dados, você pode selecionar a montagem da qual deseja consumir dados.

Agora, você pode usar suas bibliotecas preferidas para ler diretamente os dados de sua conta montada do Armazenamento do Azure Data Lake.

Ler dados da sua conta de armazenamento

import os
# List the files in the mounted path
print(os.listdir("/home/azureuser/cloudfiles/data/datastore/{name of mount}"))

# Get the path of your file and load the data using your preferred libraries
import pandas as pd
df = pd.read_csv("/home/azureuser/cloudfiles/data/datastore/{name of mount}/{file name}")
print(df.head(5))

Próximos passos