Guia de início rápido: disputa de dados interativa com o Apache Spark no Azure Machine Learning

Para lidar com a disputa interativa de dados do bloco de anotações do Azure Machine Learning, a integração do Azure Machine Learning com o Azure Synapse Analytics fornece acesso fácil à estrutura do Apache Spark. Esse acesso permite a disputa interativa de dados do Bloco de Anotações de Aprendizado de Máquina do Azure.

Neste guia de início rápido, você aprenderá a executar disputas de dados interativas com a computação Spark sem servidor do Azure Machine Learning, a conta de armazenamento do Azure Data Lake Storage (ADLS) Gen 2 e a passagem de identidade do usuário.

Pré-requisitos

  • Uma assinatura do Azure; se você não tiver uma assinatura do Azure, crie uma conta gratuita antes de começar.
  • Uma área de trabalho do Azure Machine Learning. Visite Criar recursos do espaço de trabalho.
  • Uma conta de armazenamento do Azure Data Lake Storage (ADLS) Gen 2. Visite Criar uma conta de armazenamento do Azure Data Lake Storage (ADLS) Gen 2.

Armazenar credenciais da conta de armazenamento do Azure como segredos no Cofre da Chave do Azure

Para armazenar credenciais de conta de armazenamento do Azure como segredos no Cofre da Chave do Azure, com a interface do usuário do portal do Azure:

  1. Navegue até o Cofre da Chave do Azure no portal do Azure

  2. Selecione Segredos no painel esquerdo

  3. Selecionar + Gerar/Importar

    Captura de ecrã que mostra o separador Gerar ou Importar Segredos do Azure Key Vault.

  4. No ecrã Criar um segredo, introduza um Nome para o segredo que pretende criar

  5. Navegue até Conta de Armazenamento de Blob do Azure, no portal do Azure, conforme mostrado nesta imagem:

    Captura de ecrã que mostra a chave de acesso do Azure e o ecrã de valores da cadeia de ligação.

  6. Selecione Teclas de acesso na página Conta de Armazenamento de Blobs do Azure no painel esquerdo

  7. Selecione Mostrar ao lado de Chave 1 e, em seguida , Copiar para a área de transferência para obter a chave de acesso da conta de armazenamento

    Nota

    Selecione as opções apropriadas para copiar

    • Tokens SAS (assinatura de acesso compartilhado) do contêiner de armazenamento de Blob do Azure
    • Credenciais principais de serviço da conta de armazenamento do Azure Data Lake Storage (ADLS) Gen 2
      • ID do inquilino
      • ID do cliente e
      • segredo

    nas respetivas interfaces de usuário enquanto você cria os segredos do Cofre da Chave do Azure para elas

  8. Navegue de volta para a tela Criar um segredo

  9. Na caixa de texto Valor secreto, insira a credencial da chave de acesso para a conta de armazenamento do Azure, que foi copiada para a área de transferência na etapa anterior

  10. Selecione Criar

    Captura de tela que mostra a tela de criação secreta do Azure.

Gorjeta

A CLI do Azure e a biblioteca de cliente secreta do Azure Key Vault para Python também podem criar segredos do Azure Key Vault.

Adicionar atribuições de função em contas de armazenamento do Azure

Temos de garantir que os caminhos dos dados de entrada e saída estão acessíveis antes de iniciarmos a disputa interativa de dados. Em primeiro lugar, para

  • a identidade do usuário conectado à sessão do Notebooks

    ou

  • uma entidade de serviço

atribuir funções de Leitor e Leitor de Dados de Blob de Armazenamento à identidade do usuário conectado. No entanto, em determinados cenários, talvez queiramos gravar os dados disputados de volta na conta de armazenamento do Azure. As funções Leitor e Leitor de Dados de Blob de Armazenamento fornecem acesso somente leitura à identidade do usuário ou à entidade de serviço. Para habilitar o acesso de leitura e gravação, atribua as funções de Colaborador e Colaborador de Dados de Blob de Armazenamento à identidade do usuário ou à entidade de serviço. Para atribuir funções apropriadas à identidade do usuário:

  1. Abra o portal do Microsoft Azure

  2. Pesquise e selecione o serviço Contas de armazenamento

    Captura de tela expansível que mostra a pesquisa e a seleção do serviço de contas de armazenamento no portal do Microsoft Azure.

  3. Na página Contas de armazenamento, selecione a conta de armazenamento do Azure Data Lake Storage (ADLS) Gen 2 na lista. Uma página mostrando a visão geral da conta de armazenamento é aberta

    Captura de tela expansível que mostra a seleção da conta de armazenamento do Azure Data Lake Storage (ADLS) Gen 2 Conta de armazenamento.

  4. Selecione Controle de acesso (IAM) no painel esquerdo

  5. Selecione Adicionar atribuição de função

    Captura de ecrã que mostra o ecrã de teclas de acesso do Azure.

  6. Localizar e selecionar a função Contribuidor de Dados de Blob de Armazenamento

  7. Selecione Seguinte

    Captura de tela que mostra a tela de atribuição de função de adição do Azure.

  8. Selecione Usuário, grupo ou entidade de serviço

  9. Selecionar + Selecionar membros

  10. Procure a identidade do usuário abaixo de Selecionar

  11. Selecione a identidade do usuário na lista, para que ela seja exibida em Membros selecionados

  12. Selecione a identidade de usuário apropriada

  13. Selecione Seguinte

    Captura de tela que mostra a guia Membros da tela Adicionar atribuição de função do Azure.

  14. Selecione Rever + Atribuir

    Captura de ecrã a mostrar o Azure adicionar atribuição de função, rever o ecrã e separador atribuir.

  15. Repita as etapas 2 a 13 para a atribuição da função de Colaborador

Depois que a identidade do usuário tiver as funções apropriadas atribuídas, os dados na conta de armazenamento do Azure deverão ficar acessíveis.

Nota

Se um pool Synapse Spark anexado apontar para um pool Synapse Spark, em um espaço de trabalho do Azure Synapse, que tenha uma rede virtual gerenciada associada a ele, você deverá configurar um ponto de extremidade privado gerenciado para uma conta de armazenamento para garantir o acesso aos dados.

Garantindo o acesso a recursos para trabalhos do Spark

Para acessar dados e outros recursos, os trabalhos do Spark podem usar uma identidade gerenciada ou passagem de identidade do usuário. A tabela a seguir resume os diferentes mecanismos de acesso a recursos enquanto você usa a computação do Spark sem servidor do Aprendizado de Máquina do Azure e o pool Synapse Spark anexado.

Piscina de faísca Identidades suportadas Identidade predefinida
Computação do Spark sem servidor Identidade do usuário, identidade gerenciada atribuída pelo usuário anexada ao espaço de trabalho Identidade do utilizador
Piscina Synapse Spark anexada Identidade do usuário, identidade gerenciada atribuída pelo usuário anexada ao pool Synapse Spark anexado, identidade gerenciada atribuída pelo sistema do pool Synapse Spark anexado Identidade gerenciada atribuída pelo sistema do pool Synapse Spark anexado

Se o código da CLI ou SDK definir uma opção para usar a identidade gerenciada, a computação do Spark sem servidor do Aprendizado de Máquina do Azure depende de uma identidade gerenciada atribuída pelo usuário anexada ao espaço de trabalho. Você pode anexar uma identidade gerenciada atribuída pelo usuário a um espaço de trabalho existente do Azure Machine Learning com a CLI v2 do Azure Machine Learning ou com ARMCliento .

Próximos passos