Architettura di protezione dell'esfiltrazione dei dati

Questa pagina è un'architettura di riferimento delle funzionalità per la protezione dell'esfiltrazione dei dati a livello di rete in Azure. Ogni sezione descrive un controllo, ad esempio identità, governance del catalogo Unity, restrizioni dell'area di lavoro, monitoraggio e isolamento di rete specifico del cloud e collegamenti alla relativa guida all'implementazione. Per i concetti e le priorità del livello di sicurezza dietro questi controlli, vedere Protezione dell'esfiltrazione dei dati.

Controlli di identità e accesso

I controlli basati sull'identità sono la prima linea di difesa contro l'esfiltrazione di dati. Senza autenticazione avanzata e accesso attendibile, l'identità debole compromette i controlli a livello di rete.

Icona dello scudo utente. Accesso unificato con SSO

Applicare l'accesso Single Sign-On (SSO) in tutte le aree di lavoro nell'account Azure Databricks usando un account di accesso unificato. Ciò garantisce che gli utenti eseguano l'autenticazione tramite il provider di identità aziendale anziché usare account personali o metodi non SSO.

Abilitare l'autenticazione a più fattori (MFA) all'interno del provider di identità per un ulteriore livello di verifica.

Vedere Autenticazione e controllo di accesso.

Icona del gruppo di utenti. Gestione automatica delle identità

Implementare il provisioning SCIM per automatizzare la gestione del ciclo di vita degli utenti. In questo modo, i dipendenti precedenti vengono automaticamente deprovisionati e non possono accedere alle aree di lavoro dopo la partenza.

Consulta Sincronizzare utenti e gruppi da Microsoft Entra ID utilizzando SCIM.

Icona a forma di globo. Controlli di accesso alla rete

Limitare l'accesso dell'area di lavoro e della console dell'account alle reti attendibili:

Controlli di governance dei dati

I controlli di rete impediscono percorsi in uscita non autorizzati, ma i controlli di governance dei dati assicurano che anche le risorse di calcolo autorizzate possano accedere solo alle destinazioni dati approvate. Applicare questi controlli indipendentemente dall'architettura di sicurezza di rete distribuita.

Icona chiave. Controllo di accesso standard

Utilizzare i privilegi di Unity Catalog per limitare chi può leggere, scrivere o modificare ciascun catalogo, schema, tabella e volume. Concedere i privilegi minimi necessari per ogni ruolo e gruppo.

I privilegi si propagano gerarchicamente: un'autorizzazione su un catalogo si applica a tutti gli schemi e le tabelle al suo interno. Usare questa opzione per applicare valori predefiniti generali, quindi limitare l'accesso a livelli inferiori per i dati sensibili.

Consulta Gestione dei privilegi in Unity Catalog.

Icona etichetta. Controllo degli accessi basato sugli attributi (ABAC)

ABAC regola l'accesso ai dati in base ai tag associati agli oggetti dati, non solo all'identità dell'oggetto. Usa ABAC per applicare policy come "gli utenti possono interrogare solo le tabelle contrassegnate con pii=false" o "gli utenti nel gruppo UE non possono leggere le tabelle contrassegnate con region=US".

L'ABAC è più scalabile dei GRANT per singolo oggetto in ambienti di grandi dimensioni in cui sono già in uso convenzioni di tagging. Si abbina bene anche ai filtri di riga e alle maschere di colonna (sotto).

Vedere Controllo degli accessi in base agli attributi in Unity Catalog.

Icona filtro. Filtri di riga e maschere di colonna

Limitare gli elementi visualizzati dagli utenti all'interno di una tabella:

  • Filtri di riga: Applica una funzione SQL che determina le righe su cui un utente può eseguire query. Ad esempio, limitare una tabella vendite in modo che ogni responsabile di area visualizzi solo le righe per la propria area.
  • Maschere di colonna: applicare una funzione SQL che trasforma il valore di una colonna prima di tornare all'utente. Ad esempio, mascherare i numeri delle carte di credito in XXXX-XXXX-XXXX-1234 per gli utenti non finanziari.

I filtri di riga e le maschere di colonna vengono valutati in fase di query, in modo che gli utenti non possano ignorarli con SELECT *.

Vedere Filtri di riga e maschere di colonna.

Icona dello scudo utente. Restrizioni amministrative del catalogo Unity

Limitare la creazione degli oggetti di accesso ai dati protetti ai soli amministratori:

  • Credenziali di archiviazione: consente solo agli amministratori di creare credenziali di archiviazione. Applicare criteri di accesso cloud con privilegi minimi (ruoli IAM, identità gestite) per ogni credenziale. Vedere Gestire le credenziali di archiviazione.
  • Percorsi esterni: consente solo agli amministratori di creare percorsi esterni che eseguono il mapping ai percorsi di archiviazione cloud. Vedere Gestire le posizioni esterne.
  • Connessioni di database: consente solo agli amministratori di creare connessioni a database esterni tramite Lakehouse Federation. Per informazioni, consultare Gestire le connessioni per Lakehouse Federation.
  • Credenziali del servizio: consente solo agli amministratori di creare credenziali del servizio per i servizi cloud esterni. Vedere Creare le credenziali del servizio.

Concedi agli utenti le autorizzazioni per usare oggetti protetti approvati anziché crearne di nuovi. Ciò impedisce agli utenti di puntare le risorse di calcolo alle risorse di archiviazione o agli endpoint non attendibili.

Icona a forma di ingranaggio del catalogo. Associazioni di aree di lavoro per i cataloghi

Associare cataloghi di Unity a aree di lavoro specifiche per impedire l'accesso ai dati tra ambienti. Ad esempio, impedire alle aree di lavoro di sviluppo di leggere i dati di produzione.

Vedere associazione del catalogo dell'area di lavoro.

Icona del database. Criteri dell'account di archiviazione

Implementare firewall o criteri bucket sugli account di archiviazione per accettare il traffico solo da destinazioni di origine approvate:

  • Configurare Archiviazione di Azure firewall per consentire l'accesso solo da reti virtuali approvate, endpoint privati o endpoint di servizio.
  • Usare le identità gestite con assegnazioni di ruolo con privilegi minimi.

Restrizioni dell'area di lavoro

Le impostazioni di amministrazione dell'area di lavoro controllano i percorsi di download ed esportazione dei dati tramite l'interfaccia utente di Azure Databricks. Disabilitare queste impostazioni per impedire agli utenti di estrarre dati tramite l'interfaccia dell'area di lavoro.

Impostazione Rischio mitigato
Disabilitare il download dei risultati del notebook Utenti che scaricano i risultati delle query nei computer locali
Disabilitare il download dei file di volume Utenti che scaricano i file di volume nei computer locali
Disabilitare l'esportazione di notebook e file Utenti che esportano notebook o file dall'area di lavoro
Disabilitare il download dei risultati DI SQL Utenti che scaricano i risultati delle query SQL
Disabilitare il download degli artefatti di esecuzione di MLflow Utenti che scaricano gli artefatti dell'esperimento MLflow
Disabilitare gli Appunti della tabella dei risultati Utenti che copiano dati in formato tabella negli appunti

Configurare queste impostazioni nella console di amministrazione dell'area di lavoro nelle impostazioni di sicurezza. Vedi Gestisci l'area di lavoro.

Monitoraggio e rilevamento

I controlli preventivi riducono il rischio di esfiltrazione dei dati, ma il monitoraggio rileva quando i controlli hanno esito negativo o quando gli utenti malintenzionati li ignorano.

Icona Avvisi. Tabelle di sistema per il monitoraggio del controllo

Usare Azure Databricks Monitorare i costi usando le tabelle di sistema per monitorare i modelli di accesso ai dati. Il riferimento alla tabella di sistema del log di controllo acquisisce gli eventi dell'area di lavoro, tra cui:

  • Autenticazione utente e tentativi di accesso.
  • Operazioni di lettura e scrittura dei dati.
  • Modifiche alla configurazione amministrativa.
  • Utilizzo delle credenziali e accesso alla posizione esterna.

Configurare avvisi per attività sospette, ad esempio volumi di dati insoliti, accesso da posizioni impreviste o tentativi di accesso a risorse non autorizzate.

Icona cloud. Integrazione dei log nativa del cloud

Inserire log specifici del cloud per integrare Azure Databricks tabelle di sistema:

  • Configurare Monitoraggio di Azure e log attività per acquisire gli eventi di accesso alle risorse di archiviazione, l'utilizzo delle identità gestite e i log dei flussi di rete.

Correlare i log nativi del cloud con i log di controllo Azure Databricks per ottenere visibilità completa sullo spostamento dei dati nell'ambiente.

l'architettura di Azure

L'architettura di Azure usa l'iniezione della VNet, collegamento privato e Firewall di Azure per creare un perimetro di rete sicuro attorno ai carichi di lavoro di Azure Databricks.

Prerequisiti

Componente dettagli
Rete virtuale Rete virtuale gestita dal cliente per la distribuzione del piano dati di Azure Databricks tramite Deploy Azure Databricks nella rete virtuale Azure (VNet injection).
Subnetti Tre subnet: host (pubblico), contenitore (privato) e subnet dell'endpoint privato.
Firewall o NVA Appliance virtuale di rete (Firewall di Azure o di terze parti) per l'ispezione in uscita e l'applicazione dei criteri.
Zone DNS privato Risoluzione DNS per gli endpoint privati all'interno della rete virtuale.
Azure Key Vault (Archivio chiavi di Azure) Archivia le chiavi gestite dal cliente per DBFS, dischi gestiti e crittografia dei servizi gestiti.
Elenco degli elementi consentiti del firewall Endpoint di Azure Databricks necessari. Vedere Configurare le regole del firewall dei nomi di dominio.

Componenti dell'architettura

L'architettura ha quattro aree principali: isolamento della rete, connettività privata, controllo in uscita e sicurezza serverless.

Icona scudo. Isolamento della rete

Distribuisci Azure Databricks con Enable secure cluster connectivity (SCC) abilitato in una rete virtuale tramite Deploy Azure Databricks in your Azure virtual network (VNet injection). È possibile eseguire la distribuzione usando una topologia hub-spoke con un firewall centralizzato o una topologia di rete isolata (isola) senza un hub. Questa configurazione:

  • Elimina gli indirizzi IP pubblici nei nodi del cluster.
  • Richiede coppie di subnet dedicate per ogni area di lavoro (una privata, una pubblica).
  • Indirizza il traffico del piano di controllo attraverso endpoint privati.
Icona di collegamento. Connettività privata

Configurare gli endpoint collegamento privato per gli account di archiviazione Azure gestiti dal cliente in una subnet dedicata:

Note

Gli endpoint privati e i criteri degli endpoint di servizio si applicano solo agli account di archiviazione gestiti dal cliente Azure. Le risorse gestite di Azure Databricks (l'archiviazione degli artefatti, l'archiviazione dei log e Event Hubs) non possono essere collocate dietro endpoint privati.

Configurare Configurare collegamento privato in ingresso per l'accesso degli utenti e l'autenticazione del browser (SSO).

Icona filtro. Controllo in uscita

Distribuire Firewall di Azure (o un'appliance virtuale di rete di terze parti) in una rete virtuale hub:

  • Regole di applicazione: definire FQDN accessibili tramite il firewall (piano di controllo, app Web e inoltro SCC se il piano di calcolo classico collegamento privato non è configurato).
  • Regole di rete: definire l'indirizzo IP, la porta e il protocollo per gli endpoint che non possono usare FQDN.
  • Route definite dall'utente (UDR): instradare il traffico non locale da subnet Azure Databricks attraverso il firewall usando una route predefinita (0.0.0.0/0).

Note

Quando si usano i criteri per gli endpoint di servizio, non sono necessarie regole di rete del firewall per gli account di archiviazione del servizio di Azure Databricks (artefatti, log, tabelle di sistema).

Gli endpoint di servizio aggirano il firewall per l'archiviazione di sistema di Azure Databricks, riducendo i costi di trasferimento dei dati ed evitando la limitazione della larghezza di banda. La sola archiviazione degli artefatti può arrivare a rappresentare fino a 11 GB scaricati per ciascun nodo del cluster.

Icona dello scudo con segno di spunta. Sicurezza serverless

Configura Che cos'è il controllo del traffico in uscita serverless? per gestire il traffico in uscita. Usare Serverless compute plane networking per stabilire connessioni private tra l'ambiente di calcolo serverless e gli account di archiviazione Azure (ADLS Gen2).

Strategie di ottimizzazione:

  • Usare gli endpoint di servizio invece di collegamento privato laddove i requisiti di sicurezza lo consentano.
  • Configura i criteri degli endpoint di servizio per bypassare il firewall per l'archiviazione di sistema di Azure Databricks (riduce i costi di trasferimento dei dati ed evita le limitazioni della velocità).
  • Dimensiona correttamente Firewall di Azure o il throughput dell'appliance virtuale di rete (NVA) in base ai requisiti reali.
  • Monitorare i costi di trasferimento dei dati tramite appliance firewall.

Per indicazioni dettagliate, vedere Informazioni sui costi di rete di Databricks .

Vedere anche

risorsa Description
Architetture di riferimento di rete Architetture di sicurezza di rete (gestite, con protezione avanzata e isolata).
Sicurezza e conformità Controlli di sicurezza e conformità oltre la rete.