Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Questa pagina è un'architettura di riferimento delle funzionalità per la protezione dell'esfiltrazione dei dati a livello di rete in Azure. Ogni sezione descrive un controllo, ad esempio identità, governance del catalogo Unity, restrizioni dell'area di lavoro, monitoraggio e isolamento di rete specifico del cloud e collegamenti alla relativa guida all'implementazione. Per i concetti e le priorità del livello di sicurezza dietro questi controlli, vedere Protezione dell'esfiltrazione dei dati.
- Per distribuire il set completo di controlli come un unico bundle, utilizza il modulo Terraform Azure Databricks Security Reference Architecture, che implementa da un capo all’altro l’architettura Isolated environment. Vedi il modulo Terraform dell'architettura di riferimento per la sicurezza di Azure.
- Per configurare i controlli singolarmente, usare la guida seguente.
Controlli di identità e accesso
I controlli basati sull'identità sono la prima linea di difesa contro l'esfiltrazione di dati. Senza autenticazione avanzata e accesso attendibile, l'identità debole compromette i controlli a livello di rete.
Accesso unificato con SSO
Applicare l'accesso Single Sign-On (SSO) in tutte le aree di lavoro nell'account Azure Databricks usando un account di accesso unificato. Ciò garantisce che gli utenti eseguano l'autenticazione tramite il provider di identità aziendale anziché usare account personali o metodi non SSO.
Abilitare l'autenticazione a più fattori (MFA) all'interno del provider di identità per un ulteriore livello di verifica.
Gestione automatica delle identità
Implementare il provisioning SCIM per automatizzare la gestione del ciclo di vita degli utenti. In questo modo, i dipendenti precedenti vengono automaticamente deprovisionati e non possono accedere alle aree di lavoro dopo la partenza.
Consulta Sincronizzare utenti e gruppi da Microsoft Entra ID utilizzando SCIM.
Controlli di accesso alla rete
Limitare l'accesso dell'area di lavoro e della console dell'account alle reti attendibili:
- Elenchi di accesso IP a livello di account: controllare l'accesso alla console dell'account. Vedere Configurare gli elenchi di accesso IP per la console dell'account.
- Elenchi di accesso IP a livello di area di lavoro: controllare l'accesso alle singole aree di lavoro. Vedere Configurare gli elenchi di accesso IP per le aree di lavoro.
- Private connectivity: usare i collegamento privato in ingresso per eliminare completamente l'accesso all'area di lavoro pubblica. Vedere Configurare il collegamento privato in ingresso.
Controlli di governance dei dati
I controlli di rete impediscono percorsi in uscita non autorizzati, ma i controlli di governance dei dati assicurano che anche le risorse di calcolo autorizzate possano accedere solo alle destinazioni dati approvate. Applicare questi controlli indipendentemente dall'architettura di sicurezza di rete distribuita.
Controllo di accesso standard
Utilizzare i privilegi di Unity Catalog per limitare chi può leggere, scrivere o modificare ciascun catalogo, schema, tabella e volume. Concedere i privilegi minimi necessari per ogni ruolo e gruppo.
I privilegi si propagano gerarchicamente: un'autorizzazione su un catalogo si applica a tutti gli schemi e le tabelle al suo interno. Usare questa opzione per applicare valori predefiniti generali, quindi limitare l'accesso a livelli inferiori per i dati sensibili.
Consulta Gestione dei privilegi in Unity Catalog.
Controllo degli accessi basato sugli attributi (ABAC)
ABAC regola l'accesso ai dati in base ai tag associati agli oggetti dati, non solo all'identità dell'oggetto. Usa ABAC per applicare policy come "gli utenti possono interrogare solo le tabelle contrassegnate con pii=false" o "gli utenti nel gruppo UE non possono leggere le tabelle contrassegnate con region=US".
L'ABAC è più scalabile dei GRANT per singolo oggetto in ambienti di grandi dimensioni in cui sono già in uso convenzioni di tagging. Si abbina bene anche ai filtri di riga e alle maschere di colonna (sotto).
Vedere Controllo degli accessi in base agli attributi in Unity Catalog.
Filtri di riga e maschere di colonna
Limitare gli elementi visualizzati dagli utenti all'interno di una tabella:
- Filtri di riga: Applica una funzione SQL che determina le righe su cui un utente può eseguire query. Ad esempio, limitare una tabella vendite in modo che ogni responsabile di area visualizzi solo le righe per la propria area.
-
Maschere di colonna: applicare una funzione SQL che trasforma il valore di una colonna prima di tornare all'utente. Ad esempio, mascherare i numeri delle carte di credito in
XXXX-XXXX-XXXX-1234per gli utenti non finanziari.
I filtri di riga e le maschere di colonna vengono valutati in fase di query, in modo che gli utenti non possano ignorarli con SELECT *.
Restrizioni amministrative del catalogo Unity
Limitare la creazione degli oggetti di accesso ai dati protetti ai soli amministratori:
- Credenziali di archiviazione: consente solo agli amministratori di creare credenziali di archiviazione. Applicare criteri di accesso cloud con privilegi minimi (ruoli IAM, identità gestite) per ogni credenziale. Vedere Gestire le credenziali di archiviazione.
- Percorsi esterni: consente solo agli amministratori di creare percorsi esterni che eseguono il mapping ai percorsi di archiviazione cloud. Vedere Gestire le posizioni esterne.
- Connessioni di database: consente solo agli amministratori di creare connessioni a database esterni tramite Lakehouse Federation. Per informazioni, consultare Gestire le connessioni per Lakehouse Federation.
- Credenziali del servizio: consente solo agli amministratori di creare credenziali del servizio per i servizi cloud esterni. Vedere Creare le credenziali del servizio.
Concedi agli utenti le autorizzazioni per usare oggetti protetti approvati anziché crearne di nuovi. Ciò impedisce agli utenti di puntare le risorse di calcolo alle risorse di archiviazione o agli endpoint non attendibili.
Associazioni di aree di lavoro per i cataloghi
Associare cataloghi di Unity a aree di lavoro specifiche per impedire l'accesso ai dati tra ambienti. Ad esempio, impedire alle aree di lavoro di sviluppo di leggere i dati di produzione.
Criteri dell'account di archiviazione
Implementare firewall o criteri bucket sugli account di archiviazione per accettare il traffico solo da destinazioni di origine approvate:
- Configurare Archiviazione di Azure firewall per consentire l'accesso solo da reti virtuali approvate, endpoint privati o endpoint di servizio.
- Usare le identità gestite con assegnazioni di ruolo con privilegi minimi.
Restrizioni dell'area di lavoro
Le impostazioni di amministrazione dell'area di lavoro controllano i percorsi di download ed esportazione dei dati tramite l'interfaccia utente di Azure Databricks. Disabilitare queste impostazioni per impedire agli utenti di estrarre dati tramite l'interfaccia dell'area di lavoro.
| Impostazione | Rischio mitigato |
|---|---|
| Disabilitare il download dei risultati del notebook | Utenti che scaricano i risultati delle query nei computer locali |
| Disabilitare il download dei file di volume | Utenti che scaricano i file di volume nei computer locali |
| Disabilitare l'esportazione di notebook e file | Utenti che esportano notebook o file dall'area di lavoro |
| Disabilitare il download dei risultati DI SQL | Utenti che scaricano i risultati delle query SQL |
| Disabilitare il download degli artefatti di esecuzione di MLflow | Utenti che scaricano gli artefatti dell'esperimento MLflow |
| Disabilitare gli Appunti della tabella dei risultati | Utenti che copiano dati in formato tabella negli appunti |
Configurare queste impostazioni nella console di amministrazione dell'area di lavoro nelle impostazioni di sicurezza. Vedi Gestisci l'area di lavoro.
Monitoraggio e rilevamento
I controlli preventivi riducono il rischio di esfiltrazione dei dati, ma il monitoraggio rileva quando i controlli hanno esito negativo o quando gli utenti malintenzionati li ignorano.
Tabelle di sistema per il monitoraggio del controllo
Usare Azure Databricks Monitorare i costi usando le tabelle di sistema per monitorare i modelli di accesso ai dati. Il riferimento alla tabella di sistema del log di controllo acquisisce gli eventi dell'area di lavoro, tra cui:
- Autenticazione utente e tentativi di accesso.
- Operazioni di lettura e scrittura dei dati.
- Modifiche alla configurazione amministrativa.
- Utilizzo delle credenziali e accesso alla posizione esterna.
Configurare avvisi per attività sospette, ad esempio volumi di dati insoliti, accesso da posizioni impreviste o tentativi di accesso a risorse non autorizzate.
Integrazione dei log nativa del cloud
Inserire log specifici del cloud per integrare Azure Databricks tabelle di sistema:
- Configurare Monitoraggio di Azure e log attività per acquisire gli eventi di accesso alle risorse di archiviazione, l'utilizzo delle identità gestite e i log dei flussi di rete.
Correlare i log nativi del cloud con i log di controllo Azure Databricks per ottenere visibilità completa sullo spostamento dei dati nell'ambiente.
l'architettura di Azure
L'architettura di Azure usa l'iniezione della VNet, collegamento privato e Firewall di Azure per creare un perimetro di rete sicuro attorno ai carichi di lavoro di Azure Databricks.
Prerequisiti
| Componente | dettagli |
|---|---|
| Rete virtuale | Rete virtuale gestita dal cliente per la distribuzione del piano dati di Azure Databricks tramite Deploy Azure Databricks nella rete virtuale Azure (VNet injection). |
| Subnetti | Tre subnet: host (pubblico), contenitore (privato) e subnet dell'endpoint privato. |
| Firewall o NVA | Appliance virtuale di rete (Firewall di Azure o di terze parti) per l'ispezione in uscita e l'applicazione dei criteri. |
| Zone DNS privato | Risoluzione DNS per gli endpoint privati all'interno della rete virtuale. |
| Azure Key Vault (Archivio chiavi di Azure) | Archivia le chiavi gestite dal cliente per DBFS, dischi gestiti e crittografia dei servizi gestiti. |
| Elenco degli elementi consentiti del firewall | Endpoint di Azure Databricks necessari. Vedere Configurare le regole del firewall dei nomi di dominio. |
Componenti dell'architettura
L'architettura ha quattro aree principali: isolamento della rete, connettività privata, controllo in uscita e sicurezza serverless.
Isolamento della rete
Distribuisci Azure Databricks con Enable secure cluster connectivity (SCC) abilitato in una rete virtuale tramite Deploy Azure Databricks in your Azure virtual network (VNet injection). È possibile eseguire la distribuzione usando una topologia hub-spoke con un firewall centralizzato o una topologia di rete isolata (isola) senza un hub. Questa configurazione:
- Elimina gli indirizzi IP pubblici nei nodi del cluster.
- Richiede coppie di subnet dedicate per ogni area di lavoro (una privata, una pubblica).
- Indirizza il traffico del piano di controllo attraverso endpoint privati.
Suggerimento
Non archiviare i dati dell'applicazione nell'archiviazione radice DBFS. Disabilita l'accesso alla radice e ai montaggi di DBFS nell'area di lavoro di Azure Databricks esistente e usa Che cosa sono i volumi di Unity Catalog?.
Connettività privata
Configurare gli endpoint collegamento privato per gli account di archiviazione Azure gestiti dal cliente in una subnet dedicata:
- Tutti gli accessi ai dati si verificano sul backbone di rete Azure.
- Gli endpoint privati possono essere distribuiti nella rete virtuale Azure Databricks o in una rete virtuale con peering.
- In alternativa agli account di archiviazione gestiti dal cliente, usare Configurare i criteri degli endpoint di servizio della rete virtuale di Azure per l'accesso all'archiviazione da risorse di calcolo classiche (senza costi aggiuntivi).
Note
Gli endpoint privati e i criteri degli endpoint di servizio si applicano solo agli account di archiviazione gestiti dal cliente Azure. Le risorse gestite di Azure Databricks (l'archiviazione degli artefatti, l'archiviazione dei log e Event Hubs) non possono essere collocate dietro endpoint privati.
Configurare Configurare collegamento privato in ingresso per l'accesso degli utenti e l'autenticazione del browser (SSO).
Controllo in uscita
Distribuire Firewall di Azure (o un'appliance virtuale di rete di terze parti) in una rete virtuale hub:
- Regole di applicazione: definire FQDN accessibili tramite il firewall (piano di controllo, app Web e inoltro SCC se il piano di calcolo classico collegamento privato non è configurato).
- Regole di rete: definire l'indirizzo IP, la porta e il protocollo per gli endpoint che non possono usare FQDN.
-
Route definite dall'utente (UDR): instradare il traffico non locale da subnet Azure Databricks attraverso il firewall usando una route predefinita (
0.0.0.0/0).
Note
Quando si usano i criteri per gli endpoint di servizio, non sono necessarie regole di rete del firewall per gli account di archiviazione del servizio di Azure Databricks (artefatti, log, tabelle di sistema).
Gli endpoint di servizio aggirano il firewall per l'archiviazione di sistema di Azure Databricks, riducendo i costi di trasferimento dei dati ed evitando la limitazione della larghezza di banda. La sola archiviazione degli artefatti può arrivare a rappresentare fino a 11 GB scaricati per ciascun nodo del cluster.
Sicurezza serverless
Configura Che cos'è il controllo del traffico in uscita serverless? per gestire il traffico in uscita. Usare Serverless compute plane networking per stabilire connessioni private tra l'ambiente di calcolo serverless e gli account di archiviazione Azure (ADLS Gen2).
Strategie di ottimizzazione:
- Usare gli endpoint di servizio invece di collegamento privato laddove i requisiti di sicurezza lo consentano.
- Configura i criteri degli endpoint di servizio per bypassare il firewall per l'archiviazione di sistema di Azure Databricks (riduce i costi di trasferimento dei dati ed evita le limitazioni della velocità).
- Dimensiona correttamente Firewall di Azure o il throughput dell'appliance virtuale di rete (NVA) in base ai requisiti reali.
- Monitorare i costi di trasferimento dei dati tramite appliance firewall.
Per indicazioni dettagliate, vedere Informazioni sui costi di rete di Databricks .
Vedere anche
| risorsa | Description |
|---|---|
| Architetture di riferimento di rete | Architetture di sicurezza di rete (gestite, con protezione avanzata e isolata). |
| Sicurezza e conformità | Controlli di sicurezza e conformità oltre la rete. |