Compartilhar via


Habilite o suporte de firewall para sua conta de armazenamento do workspace

Quando você cria um novo espaço de trabalho do Azure Databricks, uma conta de armazenamento do Azure é criada em um grupo de recursos gerenciados, conhecido como conta de armazenamento do espaço de trabalho. A conta de armazenamento do espaço de trabalho inclui dados do sistema de espaço de trabalho (saída de trabalho, configurações do sistema e logs), raiz DBFS e, em alguns casos, um catálogo de espaço de trabalho do Unity Catalog. Esse artigo descreve como limitar o acesso à sua conta de armazenamento do espaço de trabalho apenas de recursos e redes autorizadas usando um modelo ARM.

Qual é o suporte de firewall para sua conta de armazenamento do workspace?

Por padrão, a conta de armazenamento do Azure para sua conta de armazenamento do workspace aceita conexões autenticadas de todas as redes. Você pode limitar esse acesso habilitando o suporte de firewall para sua conta de armazenamento do workspace. Isso garante que o acesso à rede pública não seja permitido e que a conta de armazenamento do espaço de trabalho não seja acessível a partir de redes não autorizadas. Talvez você queira configurar isso se sua organização tiver políticas do Azure que garantam que as contas de armazenamento sejam privadas.

Quando o suporte de firewall para a sua conta de armazenamento do espaço de trabalho está habilitado, todo o acesso de serviços fora do Azure Databricks deve utilizar pontos de extremidades privados aprovados com Private Link. O Azure Databricks cria um conector de acesso para se conectar ao armazenamento usando uma identidade gerenciada pelo Azure. O acesso da computação sem servidor do Azure Databricks deve usar pontos de extremidade de serviço ou privados.

Requisitos

  • O seu espaço de trabalho deve permitir a injeção VNet para ligações do plano de computação clássico.

    Se estiver criando um novo espaço de trabalho, crie uma rede virtual e duas sub-redes seguindo as instruções em Requisitos de rede virtual.

  • Seu espaço de trabalho deve habilitar conectividade segura de cluster (sem IP público/NPIP) para conexões do plano de computação clássico.

  • Seu workspace deve estar no plano Premium.

  • Você deve ter uma sub-rede separada para os pontos de extremidades privados da conta de armazenamento. Isso é um acréscimo às duas sub-redes principais para a funcionalidade básica do Azure Databricks.

    A sub-rede deve estar na mesma VNet que o espaço de trabalho ou numa VNet separada que o espaço de trabalho possa aceder. Use o tamanho mínimo /28 na notação CIDR.

  • Se você estiver usando o Cloud Fetch com o serviço Microsoft Fabric Power BI, deverá sempre usar um gateway para acesso privado à conta de armazenamento do workspace ou desabilitar o Cloud Fetch. Veja Etapa 3 (recomendado): configurar pontos de extremidades privados para VNets do cliente Cloud Fetch.

Etapa 1: implantar o modelo ARM necessário

Esta etapa usa um modelo do ARM para gerenciar o workspace do Azure Databricks. Também é possível atualizar ou criar um workspace usando o Terraform. Consulte o provedor Terraform azurerm_databricks_workspace.

  1. No portal do Azure, pesquise e selecione Deploy a custom template.
  2. Clique em Criar seu próprio modelo no editor.
  3. Copie o modelo ARM de Modelo ARM para suporte de firewall para sua conta de armazenamento de espaço de trabalho e cole-o no editor.
  4. Clique em Save (Salvar).
  5. Revise e edite campos. Para obter uma descrição dos campos, veja Campos do modelo ARM.
  6. Clique em Revisar e Criar e depois em Criar.

O seu espaço de trabalho está temporariamente impossibilitado de executar cadernos ou trabalhos até criar os seus pontos de extremidades privados.

Observação

O acesso à rede pública na conta de armazenamento do workspace é definido como Habilitado em redes virtuais e endereços IP selecionados e não como Desabilitado para dar suporte a recursos de computação sem servidor sem a necessidade de pontos de extremidade privados. A conta de armazenamento do workspace está em um grupo de recursos gerenciados e o firewall de armazenamento só pode ser atualizado ao adicionar uma NCC (configuração de conectividade de rede) para conexões sem servidor com o workspace. Consulte Etapa 5: autorizar conexões de computação sem servidor. Para habilitar o acesso da computação sem servidor do Azure Databricks usando pontos de extremidade privados, entre em contato com sua equipe de contas do Azure Databricks.

Etapa 2: Criar pontos de extremidades privados para a conta de armazenamento

Crie dois pontos de extremidades privados para a sua conta de armazenamento do espaço de trabalho a partir da sua VNet que utilizou para injeção de VNet para os valores Sub-recurso de destino: dfs e blob.

  1. No portal do Azure, navegue até seu workspace.

  2. Em Essentials, clique no nome do Grupo de Recursos Gerenciados.

  3. Em Recursos, clique no recurso do tipo Conta de armazenamento que tem um nome que começa com dbstorage.

  4. Na barra lateral, clique em Rede.

  5. Clique em conexões de ponto de extremidade privado.

  6. Clique em + Ponto de extremidade privado.

  7. No campo Grupo de recursos nome, defina seu grupo de recursos. Esse não deve ser o mesmo que o grupo de recursos gerenciado em que se encontra a sua conta de armazenamento do espaço de trabalho.

  8. No campo Nome, digite um nome exclusivo para esse ponto de extremidade privado:

    • Para o primeiro ponto de extremidade privado criado para cada rede de origem, crie um ponto extremidade DFS. Databricks recomenda que você adicione o sufixo -dfs-pe
    • Para o segundo ponto de extremidade privado que cria para cada rede de origem, crie um ponto de extremidade Blob. Databricks recomenda que você adicione o sufixo -blob-pe

    O campo Nome da interface de rede é preenchido automaticamente.

  9. Defina o campo Região para a região do seu espaço de trabalho.

  10. Clique em Avançar.

  11. Em Target sub-resource, clique no tipo de recurso de destino.

    • Para o primeiro ponto de extremidade privado criado para cada rede de origem, defina-o como dfs.
    • Para o segundo ponto de extremidade privado que você cria para cada rede de origem, defina como blob.
  12. No campo Rede virtual, selecione uma VNet.

  13. No campo sub-rede, defina a sub-rede como a sub-rede separada que você tem para os pontos de extremidades privados da conta de armazenamento.

    Esse campo pode ser preenchido automaticamente com a sub-rede dos seus pontos de extremidades privados, mas poderá ter de o definir explicitamente. Você não pode usar uma das duas sub-redes do espaço de trabalho usadas para a funcionalidade básica do espaço de trabalho do Azure Databricks, que normalmente são chamadas private-subnet e public-subnet.

  14. Clique em Avançar. A guia DNS é preenchida automaticamente para a assinatura correta e o grupo de recursos que você selecionou anteriormente. Altere-os se necessário.

  15. Clique em Avançar e adicione tags, se desejar.

  16. Clique em Avançar e revise os campos.

  17. Clique em Criar.

Para desabilitar o suporte de firewall para sua conta de armazenamento de espaço de trabalho, use o mesmo processo acima, mas defina o parâmetro Firewall da conta de armazenamento (storageAccountFirewall no modelo) como Disabled e defina o campo Workspace Catalog Enabled como true ou false com base se seu espaço de trabalho usa um espaço de trabalho do Unity Catalog Catálogo. Veja Catálogos.

Cloud Fetch é um mecanismo em ODBC e JDBC para buscar dados em paralelo por meio de armazenamento em nuvem para levar os dados mais rapidamente para ferramentas de BI. Se você estiver buscando resultados de consulta maiores que 1 MB de ferramentas de BI, provavelmente está usando o Cloud Fetch.

Observação

Se você estiver usando o serviço Microsoft Fabric Power BI com Azure Databricks, deverá desabilitar o Cloud Fetch, pois esse recurso bloqueia o acesso direto à conta de armazenamento do workspace do Fabric Power BI. Como alternativa, você pode configurar um gateway de dados de rede virtual ou um gateway de dados local para permitir acesso privado à conta de armazenamento do workspace. Isso não se aplica ao Power BI desktop. Para desabilitar o Cloud Fetch, use a configuração EnableQueryResultDownload=0.

Se utilizar o Cloud Fetch, crie pontos de extremidades privados para a conta de armazenamento do espaço de trabalho a partir de quaisquer VNets dos seus clientes Cloud Fetch.

Para cada rede de origem para clientes do Cloud Fetch, crie dois pontos de extremidades privados que usam dois valores diferentes de Sub-recurso de destino: dfs e blob. Consulte Passo 2: Criar pontos de extremidades privados para a conta de armazenamento para obter etapas detalhadas. Nessas etapas, para o campo Rede virtual ao criar o ponto de extremidade privado, certifique-se de especificar sua VNet de origem para cada cliente do Cloud Fetch.

Etapa 4: confirmar as aprovações do Ponto de extremidade

Depois de criar todos os seus pontos de extremidades privados para a conta de armazenamento, verifique se foram aprovados. Eles podem ser aprovados automaticamente ou talvez você precise aprová-los na conta de armazenamento.

  1. Navegue até o workspace no portal do Azure.
  2. Em Essentials, clique no nome do Grupo de Recursos Gerenciados.
  3. Em Recursos, clique no recurso do tipo Conta de armazenamento que tem um nome que começa com dbstorage.
  4. Na barra lateral, clique em Rede.
  5. Clique em conexões de ponto de extremidade privado.
  6. Verifique o Estado da conexão para confirmar se eles dizem Aprovado ou selecione-os e clique em Aprovar.

Etapa 5: autorizar conexões de computação sem servidor

Autorize os recursos da computação sem servidor a se conectarem à conta de armazenamento do workspace anexando uma NCC (configuração de conectividade de rede) ao workspace. Quando um NCC é anexado a um espaço de trabalho, as regras de rede são automaticamente adicionadas à conta de armazenamento do Azure para a conta de armazenamento do espaço de trabalho. Para obter instruções, veja Rede de plano de computação sem servidor.

Para habilitar o acesso da computação sem servidor do Azure Databricks usando pontos de extremidade privados, entre em contato com sua equipe de contas do Azure Databricks.