Arquitetura de proteção contra exfiltração de dados

Esta página apresenta uma arquitetura de referência detalhada por recurso para proteção contra exfiltração de dados em nível de rede no Azure. Cada seção descreve um controle, como identidade, governança do Unity Catalog, restrições de espaço de trabalho, monitoramento e isolamento de rede específico da nuvem, e inclui um link para seu guia de implementação. Para obter os conceitos e as prioridades da camada de segurança por trás desses controles, consulte a proteção contra exfiltração de dados.

  • Para implantar o conjunto completo de controles como um único pacote, use o módulo do Terraform da Arquitetura de Referência de Segurança do Azure Databricks, que implementa a arquitetura de ambiente isolado de ponta a ponta. Consulte o módulo Terraform Azure Security Reference Architecture.
  • Para configurar os controles individualmente, use o guia abaixo.

Controles de acesso e identidade

Os controles baseados em identidade são a primeira linha de defesa contra a exfiltração de dados. Sem autenticação forte e acesso confiável, a identidade fraca prejudica os controles de nível de rede.

Ícone do escudo do usuário. Logon unificado com SSO

Aplique o SSO (logon único) em todos os workspaces na conta Azure Databricks usando o logon unificado. Isso garante que os usuários se autentiquem por meio de seu provedor de identidade corporativa em vez de usar contas pessoais ou métodos não SSO.

Habilite a MFA (autenticação multifator) em seu provedor de identidade para obter uma camada adicional de verificação.

Consulte Autenticação e controle de acesso.

Ícone do grupo de usuários. Gerenciamento automatizado de identidade

Implemente o provisionamento SCIM para automatizar o gerenciamento do ciclo de vida dos usuários. Isso garante que os ex-funcionários sejam automaticamente desprovisionados e não possam acessar workspaces após a partida.

Consulte Sincronizar usuários e grupos do Microsoft Entra ID usando SCIM.

Ícone do globo. Controles de acesso à rede

Restrinja o acesso ao espaço de trabalho e ao console da conta a redes confiáveis:

Controles de governança de dados

Os controles de rede impedem caminhos de saída não autorizados, mas os controles de governança de dados garantem que até mesmo os recursos de computação autorizados só possam acessar destinos de dados aprovados. Aplique esses controles independentemente de qual arquitetura de segurança de rede você implantar.

Ícone de chave. Controle de acesso padrão

Use privilégios do Catálogo do Unity para restringir quem pode ler, gravar ou modificar cada catálogo, esquema, tabela e volume. Conceda os privilégios mínimos necessários para cada função e grupo.

Os privilégios fluem hierarquicamente: uma concessão em um catálogo se aplica a todos os esquemas e tabelas dentro dele. Use isso para impor padrões amplos e, em seguida, restringir o acesso em níveis mais baixos para dados confidenciais.

Consulte Gerenciar privilégios no Catálogo do Unity.

Ícone de marca. ABAC (controle de acesso baseado em atributo)

O ABAC rege o acesso a dados com base em marcas anexadas a objetos de dados, não apenas na identidade do objeto. Use o ABAC para impor políticas como "os usuários só podem consultar tabelas marcadas pii=false" ou "os usuários no grupo da UE não podem ler tabelas marcadas region=US".

O ABAC escala melhor do que as concessões GRANT por objeto em ambientes de grande porte nos quais as convenções de etiquetagem já estão estabelecidas. Também combina bem com filtros de linha e máscaras de coluna (abaixo).

Consulte o controle de acesso baseado em atributo no Catálogo do Unity.

Ícone de filtro. Filtros de linha e máscaras de coluna

Restrinja o que os usuários veem em uma tabela:

  • Filtros de linha: aplique uma função SQL que determina quais linhas um usuário pode consultar. Por exemplo, restrinja uma tabela de vendas para que cada gerente regional veja apenas linhas para sua região.
  • Máscaras de coluna: aplique uma função SQL que transforme o valor de uma coluna antes de retornar ao usuário. Por exemplo, mascarar números de cartão de crédito como XXXX-XXXX-XXXX-1234 para usuários que não são da área financeira.

Filtros de linha e máscaras de coluna são avaliados no momento da execução da consulta, de modo que os usuários não possam contorná-los com SELECT *.

Veja Filtros de linha e máscaras de coluna.

Ícone do escudo do usuário. Restrições administrativas do Catálogo do Unity

Restrinja a criação de objetos protegidos de acesso a dados apenas a administradores:

  • Credenciais de armazenamento: permita apenas que os administradores criem credenciais de armazenamento. Aplique políticas de acesso à nuvem com privilégios mínimos (funções de IAM, identidades gerenciadas) para cada credencial. Confira Gerenciar credenciais de armazenamento.
  • Locais externos: somente permitir que os administradores criem locais externos mapeados para caminhos de armazenamento em nuvem. Confira Gerenciar locais externos.
  • Conexões com banco de dados: Permita apenas que os administradores criem conexões com bancos de dados externos por meio do Lakehouse Federation. Consulte Gerenciar conexões para a Federação de Lakehouse.
  • Credenciais de serviço: somente permitir que os administradores criem credenciais de serviço para serviços de nuvem externos. Consulte Criar credenciais de serviço.

Conceda aos usuários permissão para usar objetos protegidos aprovados em vez de criar novos. Isso impede que os usuários direcionem os recursos de computação para armazenamentos ou endpoints não confiáveis.

Ícone de engrenagem do catálogo. Vinculações de espaço de trabalho para catálogos

Associe catálogos do Unity Catalog a espaços de trabalho específicos para evitar o acesso a dados entre ambientes. Por exemplo, impeça que espaços de trabalho de desenvolvimento leiam dados de produção.

Consulte Workspace-catalog binding.

Ícone do banco de dados. Políticas de conta de armazenamento

Implemente firewalls ou políticas de bucket em contas de armazenamento para aceitar o tráfego somente de destinos de origem aprovados:

  • Configure os firewalls do Armazenamento do Azure para permitir acesso somente de VNets aprovadas, pontos de extremidade privados ou pontos de extremidade de serviço.
  • Use identidades gerenciadas com atribuições de função com privilégios mínimos.

Restrições do espaço de trabalho

As configurações de administrador do workspace controlam os caminhos de download e exportação de dados por meio da interface do usuário do Azure Databricks. Desabilite essas configurações para impedir que os usuários extraam dados por meio da interface do workspace.

Configurações Risco mitigado
Desabilitar o download de resultados do notebook Usuários baixando resultados da consulta para computadores locais
Desabilitar o download de arquivos de volume Usuários baixando arquivos de volume para computadores locais
Desabilitar a exportação de blocos de anotações e arquivos Usuários exportando notebooks ou arquivos do espaço de trabalho
Desabilitar o download de resultados do SQL Usuários baixando resultados da consulta SQL
Desabilitar o download do artefato de execução do MLflow Usuários baixando artefatos de experimento do MLflow
Desabilitar a área de transferência da tabela de resultados Usuários copiando dados tabulares para a área de transferência

Defina essas configurações no console de administração do workspace em configurações de segurança. Confira Gerenciar seu workspace.

Monitoramento e detecção

Os controles preventivos reduzem o risco de exfiltração de dados, mas o monitoramento detecta quando os controles falham ou quando os invasores os ignoram.

Ícone de alertas. Tabelas do sistema para monitoramento de auditoria

Use o Azure Databricks Monitorar custos usando tabelas do sistema para monitorar padrões de acesso a dados. A referência da tabela de sistema de log de auditoria captura eventos do espaço de trabalho, incluindo:

  • Tentativas de autenticação e acesso do usuário.
  • Operações de leitura e gravação de dados.
  • Alterações de configuração administrativa.
  • Uso de credenciais e acesso à localização externa.

Configure alertas para atividades suspeitas, como volumes de dados incomuns, acesso de locais inesperados ou tentativas de acessar recursos não autorizados.

Ícone de nuvem. Integração de logs nativa da nuvem

Coletar logs específicos da nuvem para complementar as tabelas do sistema do Azure Databricks:

  • Configure o Azure Monitor e o Log de Atividades para capturar eventos de acesso ao armazenamento, uso de identidade gerenciada e logs de fluxo de rede.

Correlacionar logs nativos de nuvem com logs de auditoria Azure Databricks para obter visibilidade completa da movimentação de dados em seu ambiente.

arquitetura Azure

A arquitetura Azure usa injeção de VNet, Link Privado e Firewall do Azure para criar um perímetro de rede seguro em torno de cargas de trabalho Azure Databricks.

Pré-requisitos

Componente Detalhes
Rede virtual VNet gerenciada pelo cliente para implantação do plano de dados do Azure Databricks usando Implantar o Azure Databricks na sua rede virtual do Azure (injeção de VNet).
Subnets Três sub-redes: host (público), contêiner (privado) e sub-rede de ponto de extremidade privado.
Firewall ou NVA Dispositivo virtual de rede (Firewall do Azure ou terceiros) para inspeção de saída e imposição de política.
Zonas DNS privadas Resolução de DNS para endpoints privados dentro da rede virtual.
Azure Key Vault Armazena chaves gerenciadas pelo cliente para DBFS, discos gerenciados e criptografia de serviços gerenciados.
Lista de permissões do firewall Endpoints necessários do Azure Databricks. Consulte Configurar regras de firewall de nome de domínio.

Componentes de arquitetura

A arquitetura tem quatro áreas principais: isolamento de rede, conectividade privada, controle de saída e segurança sem servidor.

Ícone de escudo. Isolamento de rede

Implante o Azure Databricks com Habilitar conectividade segura de cluster (SCC) habilitada em uma rede virtual usando Implantar o Azure Databricks em sua rede virtual do Azure (injeção de VNet). Você pode implantar usando uma topologia hub-and-spoke com um firewall centralizado ou uma topologia de rede isolada (ilha) sem um hub. Esta configuração:

  • Elimina endereços IP públicos em nós de cluster.
  • Requer pares de sub-redes dedicadas por espaço de trabalho (uma privada, uma pública).
  • Roteia o tráfego do plano de controle por meio de pontos de extremidade privados.

Dica

Não armazene dados do aplicativo no armazenamento raiz do DBFS. Desabilite o acesso à raiz do DBFS e às montagens no seu workspace existente do Azure Databricks e use O que são volumes do Unity Catalog? em vez disso.

Ícone de link. Conectividade privada

Configurar pontos de extremidade do Link Privado para contas de armazenamento do Azure gerenciadas pelo cliente em uma sub-rede dedicada:

Note

Pontos de extremidade privados e políticas de ponto de extremidade de serviço se aplicam somente a contas de armazenamento Azure gerenciadas pelo cliente. Os recursos gerenciados pelo Azure Databricks (armazenamento de artefatos, armazenamento de logs e Event Hubs) não podem ser colocados por trás de pontos de extremidade privados.

Configure Configurar o Link Privado de entrada para acesso do usuário e autenticação via navegador (SSO).

Ícone de filtro. Controle de saída

Implante Firewall do Azure (ou uma solução de virtualização de rede de terceiros) em uma rede virtual de hub:

  • Regras de aplicativo: Defina os FQDNs acessíveis por meio do firewall (plano de controle, aplicação Web e relay do SCC se o Link Privado do plano de computação clássico não estiver configurado).
  • Regras de rede: definir endereço IP, porta e protocolo para pontos de extremidade que não podem usar FQDNs.
  • Rotas definidas pelo usuário (UDRs): roteie o tráfego não local das sub-redes do Azure Databricks por meio do firewall usando uma rota padrão (0.0.0.0/0).

Note

Ao usar políticas de ponto de extremidade de serviço, nenhuma regra de rede do firewall é necessária para as contas de armazenamento de serviço do Azure Databricks (artefatos, logs, tabelas do sistema).

Os endpoints de serviço contornam o firewall para o armazenamento do sistema do Azure Databricks, reduzindo os custos de transferência de dados e evitando a limitação de taxa. O armazenamento de artefatos, sozinho, pode representar até 11 GB baixados por nó do cluster.

Ícone de verificação de escudo. Segurança sem servidor

Configurar o que é o controle de saída sem servidor? para controlar o tráfego de saída. Use Serverless compute plane networking para estabelecer conexões privadas entre a computação sem servidor e as contas de armazenamento Azure (ADLS Gen2).

Estratégias de otimização:

  • Use pontos de extremidade de serviço em vez do Link Privado, quando os requisitos de segurança permitirem.
  • Configure as políticas de ponto de extremidade de serviço para ignorar o firewall para Azure Databricks armazenamento do sistema (reduz os custos de transferência de dados e evita a limitação).
  • Dimensione adequadamente a taxa de transferência do Firewall do Azure ou da NVA com base nos requisitos reais.
  • Monitore os custos de transferência de dados por meio de dispositivos de firewall.

Consulte Noções básicas sobre os custos de rede do Databricks para obter diretrizes detalhadas.

Consulte também

Recurso Description
Arquiteturas de referência de rede Arquiteturas de segurança de rede (gerenciadas, protegidas, isoladas).
Segurança e conformidade Controles de segurança e conformidade além da rede.