Início rápido: Estruturação de dados interativa com o Apache Spark no Azure Machine Learning

Artigo
04/25/2024

Para lidar com a estruturação de dados interativa do notebook do Azure Machine Learning, a integração do Azure Machine Learning com o Azure Synapse Analytics fornece acesso fácil à estrutura do Apache Spark. Esse acesso permite a estruturação interativa de dados do Notebook do Azure Machine Learning.

Neste guia de início rápido, você aprenderá a executar a disputa interativa de dados com a computação spark sem servidor do Azure Machine Learning, a conta de armazenamento do AdLS (Azure Data Lake Storage) Gen 2 e a passagem de identidade do usuário.

Pré-requisitos

Uma assinatura do Azure. Caso não tenha uma, crie uma conta gratuita antes de começar.
Um Workspace do Azure Machine Learning. Acesse Criar recursos do espaço de trabalho.
Uma conta de armazenamento do ADLS (Azure Data Lake Storage) Gen 2. Visite Criar uma conta de armazenamento do Azure Data Lake Storage (ADLS) Gen 2.

Armazenar credenciais da conta de armazenamento do Azure como segredos no Azure Key Vault

Para armazenar as credenciais da conta de armazenamento do Azure como segredos no Azure Key Vault, com a interface do usuário do portal do Azure:

Navegue até o Azure Key Vault no portal do Azure
Selecione Segredos no painel esquerdo
Selecione + Gerar/importar
Na tela Criar um segredo, insira um Nome para o segredo que você deseja criar
Navegue até a Conta de Armazenamento de Blobs do Azure, no portal do Azure, conforme mostrado nesta imagem:
Selecione Chaves de acesso no painel esquerdo da página Conta de Armazenamento de Blobs do Azure
Selecione Exibir ao lado de Chave 1 e, em seguida, Copiar para área de transferência para obter a chave de acesso à conta de armazenamento
Observação

Selecione as opções apropriadas para copiar
- Tokens SAS (assinatura de acesso compartilhado) do contêiner de armazenamento de blobs do Azure
- Credenciais da entidade de serviço da conta de armazenamento do ADLS (Azure Data Lake Storage) Gen 2
  - ID do locatário
  - ID do cliente e
  - segredo
nas respectivas interfaces do usuário enquanto você cria os segredos do Azure Key Vault para eles
Volte para a tela Criar um segredo
Na caixa de texto Valor do segrego, insira a credencial da chave de acesso para a conta de armazenamento do Azure, que foi copiada para a área de transferência na etapa anterior
Escolha Criar

Dica

A CLI do Azure e a biblioteca de clientes do segredo do Azure Key Vault para Python também podem criar segredos do Azure Key Vault.

Adicionar atribuições de função em contas de armazenamento do Azure

Devemos garantir que os caminhos dos dados de entrada e saída estejam acessíveis antes de iniciarmos a estruturação de dados interativa. Primeiro, para

a identidade do usuário conectado da sessão Notebooks

or
uma entidade de serviço

atribua funções Leitor e Leitor de Dados de Blob de Armazenamento à identidade do usuário conectado. No entanto, em alguns cenários, talvez seja desejável gravar os dados estruturados de volta na conta de armazenamento do Azure. As funções Leitor e Leitor de Dados do Blob de Armazenamento fornecem acesso somente leitura à identidade do usuário ou à entidade de serviço. Para habilitar o acesso de leitura e gravação, atribua as funções Colaborador e Colaborador de Dados do Blob de Armazenamento à identidade do usuário ou entidade de serviço. Para atribuir funções apropriadas à identidade do usuário:

Abra o portal do Microsoft Azure
Pesquise e selecione o serviço Contas de armazenamento
Na página Contas de armazenamento, selecione a conta de armazenamento do Azure Data Lake Storage (ADLS) Gen 2 na lista. Uma página mostrando a conta de armazenamento Visão geral é aberta
Selecione Controle de Acesso (IAM) no painel esquerdo
Selecione Adicionar atribuição de função
Encontre e selecione a função Colaborador de Dados de Blob de Armazenamento
Selecione Avançar
Selecione Usuário, grupo ou entidade de serviço
Selecione + Selecionar membros
Pesquise pela identidade do usuário abaixo de Selecionar
Selecione a identidade do usuário na lista para que apareça em Membros selecionados
Selecione a identidade do usuário apropriada
Selecione Avançar
Selecione Revisar + Atribuir
Repita as etapas 2 a 13 para atribuição de função Colaborador

Depois que as funções apropriadas da identidade do usuário ou da entidade de serviço forem atribuídas, os dados na conta de armazenamento do Azure deverão ficar acessíveis.

Observação

Se um pool do Synapse Spark anexado aponta para um pool do Synapse Spark, em um workspace do Azure Synapse, que tem uma rede virtual gerenciada associada a ele, você deve configurar um ponto de extremidade privado gerenciado para uma conta de armazenamento para garantir o acesso aos dados.

Garanta o acesso a recursos de trabalhos do Spark

Os trabalhos do Spark podem usar a passagem de identidade do usuário ou uma identidade gerenciada para acessar dados e outros recursos. A tabela a seguir resume os diferentes mecanismos de acesso a recursos enquanto você usa a computação spark sem servidor do Azure Machine Learning e o pool do Spark do Synapse anexado.

Pool do Spark	Identidades com suporte	Identidade padrão
Computação do Spark sem servidor	Identidade do usuário, identidade gerenciada atribuída pelo usuário anexada ao espaço de trabalho	Identidade do usuário
Pool do Spark do Synapse anexado	Identidade do usuário, identidade gerenciada atribuída pelo usuário anexada ao pool do Spark do Synapse anexado, identidade gerenciada atribuída pelo sistema do pool do Spark do Synapse anexado	Identidade gerenciada atribuída pelo sistema do pool do Spark do Synapse anexado

Se o código da CLI ou do SDK definir uma opção para usar a identidade gerenciada, a computação do Spark sem servidor do Azure Machine Learning dependerá de uma identidade gerenciada atribuída pelo usuário anexada ao espaço de trabalho. Você pode anexar uma identidade gerenciada atribuída pelo usuário a um workspace do Azure Machine Learning existente com a CLI do Azure Machine Learning v2 ou com ARMClient.

Share via

Início rápido: Estruturação de dados interativa com o Apache Spark no Azure Machine Learning

Pré-requisitos

Armazenar credenciais da conta de armazenamento do Azure como segredos no Azure Key Vault

Adicionar atribuições de função em contas de armazenamento do Azure

Garanta o acesso a recursos de trabalhos do Spark

Próximas etapas

Recursos adicionais