Configurare la connettività privata del piano di calcolo classico ad Azure Databricks

Usare Collegamento privato di Azure per creare una connessione sicura tramite collegamento privato del piano di calcolo classico per l'area di lavoro di Azure Databricks. Questa connessione protegge il traffico tra cluster nel piano di calcolo classico e i servizi principali nel piano di controllo di Azure Databricks.

La configurazione di una connessione collegamento privato del piano di calcolo classico offre benefici essenziali per la sicurezza e la conformità per l'ambiente di elaborazione dati.

  • : impedisce ai cluster Azure Databricks di comunicare con il piano di controllo di Azure Databricks attraverso Internet pubblico.
  • Requisiti di conformità: consente di soddisfare rigorosi obblighi normativi e di conformità aziendali che richiedono che tutto il traffico cloud interno rimanga in una rete privata.
  • Controllo di esfiltrazione dei dati: la protezione della connessione del piano di calcolo riduce il rischio di esfiltrazione dei dati.
  • Eliminare gli indirizzi IP pubblici: funziona con la connettività sicura del cluster per abilitare un ambiente di calcolo completamente privato senza indirizzi IP pubblici nei cluster.

Panoramica dell'architettura

In una configurazione classica del collegamento privato del piano di calcolo si distribuisce un endpoint privato direttamente nella rete virtuale dell'area di lavoro (rete virtuale). Questo endpoint fornisce ai cluster Azure Databricks un percorso privato verso i servizi del piano di controllo, come il relè di connettività sicura del cluster. Tutto il traffico passa dalla rete backbone Microsoft e non tocca mai la rete Internet pubblica.

Architettura di rete collegamento privato di Azure.

Requisiti

  • L'area di lavoro deve essere nel piano Premium.
  • È disponibile un'area di lavoro di Azure Databricks distribuita con l'iniezione di Virtual Network (VNet).
  • È necessario disporre delle autorizzazioni di Azure per creare endpoint privati e gestire i record DNS.

Configurazione della rete

  • Una rete virtuale di transito configurata per quanto segue:
    • Funge da punto di transito primario per tutto il traffico utente/client che si connette alla rete di Azure.
    • Offre connettività centralizzata per reti locali o altre reti esterne.
    • Gestisce i servizi condivisi e contiene la route primaria per il traffico Internet in uscita (in uscita).
  • Una subnet dedicata deve esistere nella rete virtuale dell'area di lavoro specificamente per gli endpoint privati. Se non esiste, crealo.
  • Le zone DNS private vengono gestite da DNS di Azure.

Procedure consigliate

Azure Databricks consiglia quanto segue per una configurazione resiliente e gestibile:

  • Architettura: la rete deve seguire l'architettura hub-spoke consigliata da Microsoft. Vedere Topologia di rete hub-spoke in Azure.
  • Area di lavoro autenticazione isolata: per migliorare la resilienza, creare un'area di lavoro di autenticazione del browser separata all'interno della rete virtuale di transito. Questa area di lavoro dedicata ospita l'endpoint browser_authentication privato e impedisce un singolo punto di errore se vengono eliminate altre aree di lavoro.

Percorsi di configurazione

Scegliere il percorso corrispondente allo scenario:

Opzione 1: Configurare per una nuova area di lavoro

Opzione 1: Configurare per una nuova area di lavoro

Seguire questa procedura per distribuire una nuova workspace di Azure Databricks con una connessione collegamento privato del piano di calcolo classico.

Passaggio 1: Creare un gruppo di risorse

  1. Nel portale di Azure selezionare Gruppi di risorse e fare clic su Crea.
  2. Assegnare un nome al gruppo di risorse. Verificare che l'area corrisponda all'area in cui è distribuita la rete virtuale.

Passaggio 2: Creare una rete virtuale

Creare una rete virtuale gestita dal cliente o una rete virtuale dell'area di lavoro nella propria sottoscrizione di Azure. Quando si sceglie L'inserimento di reti virtuali, Azure Databricks distribuisce le risorse di calcolo direttamente all'interno di questa rete privata e sicura di cui si è proprietari. Questa rete virtuale è necessaria nel passaggio 3.

  1. Passare a Reti virtuali e fare clic su Crea.
  2. Assegnarlo al gruppo di risorse appena creato e fornire un nome descrittivo.
  3. Selezionare l'area in cui si vuole ospitare l'area di lavoro di Azure Databricks.
  4. Definire lo spazio indirizzi IP per la rete virtuale, ad esempio 10.10.0.0/16. Viene richiesto di creare una subnet iniziale con un intervallo specifico, ad esempio 10.10.1.0/24.
  5. Selezionare Rivedi e crea e quindi Crea.

Passaggio 3: Creare una nuova area di lavoro

  1. Nel portale di Azure cercare e selezionare Azure Databricks. Clicca su Crea.
  2. Scegliere il gruppo di risorse appena creato. Verificare che l'area corrisponda al gruppo di risorse e alla rete virtuale.
  3. Azure Databricks consiglia di aggiungere "gestito" come prefisso nel nome del gruppo di risorse gestito .
  4. Nella scheda Rete configurare quanto segue:
    1. Distribuire l'area di lavoro di Azure Databricks con connettività cluster sicura (nessun indirizzo IP pubblico): selezionare .
    2. Distribuire l'area di lavoro di Azure Databricks nella propria rete virtuale: selezionare .
    3. Selezionare la rete virtuale dell'area di lavoro creata in precedenza.
    4. Creare due subnet per l'area di lavoro. Azure Databricks consiglia di assegnare a ogni subnet un nome facilmente identificabile, ad esempio private-worker-subnet o public-host-subnet.
    5. Consenti accesso alla rete pubblica: selezionare Abilitato.
    6. Regole NSG obbligatorie: selezionare Nessuna regola di Azure Databricks.
    7. Distribuire l'area di lavoro di Azure Databricks con il gateway NAT: selezionare No.

Nota

Selezionare Nessuna regola di Azure Databricks solo per una connessione a collegamento privato del piano di calcolo classico.

Passaggio 4: Creare un endpoint privato

  1. Passare a Endpoint privati.
    1. In Endpoint privati fare clic su Aggiungi.
  2. Configurazione dell'endpoint per databricks_ui_api:
    1. Nome: Immettere un nome descrittivo, ad esempio private-endpoint-front-end-ui.
    2. Sotto-risorsa di destinazione: Selezionare databricks_ui_api.
    3. Rete virtuale: Selezionare la rete virtuale dell'area di lavoro.
      • La rete virtuale dell'area di lavoro e la subnet dell'endpoint privato dedicato forniscono un percorso di rete sicuro e diretto, consentendo all'area di lavoro di accedere privatamente ai servizi del piano di calcolo classico.
    4. Regione: Verificare che l'area corrisponda all'area di lavoro di Azure Databricks.

Dopo la distribuzione, passa ai passaggi condivisi.

Opzione 2: Configurare un'area di lavoro esistente

Opzione 2: Configurare un'area di lavoro esistente

Importante

Prima di iniziare, arrestare tutte le risorse di calcolo, ad esempio cluster e sql warehouse, nell'area di lavoro. L'aggiornamento ha esito negativo se sono in esecuzione risorse di calcolo.

Passaggio 1: Aggiornare le impostazioni di rete dell'area di lavoro

  1. Vai all'area di lavoro di Azure Databricks nel portale di Azure.
  2. In Impostazioni fare clic su Rete.
  3. Verificare che la connettività sicura del cluster (nessun indirizzo IP pubblico) sia impostata su .
  4. Modificare le regole NSG necessarie in NoAzureDatabricksRules.
  5. Fare clic su Salva. Il completamento dell'aggiornamento di rete può richiedere più di 15 minuti.

Passaggio 2: Creare un endpoint privato nella rete virtuale dell'area di lavoro

  1. Nella scheda Rete dell'area di lavoro selezionare Connessioni endpoint privati.
  2. Fare clic sull'icona Con il segno più.Endpoint privato.
  3. Selezionare il gruppo di risorse per l'endpoint, specificare un nome, my-workspace-fe-pead esempio e verificare che l'area corrisponda all'area di lavoro.
  4. Nella scheda Risorse impostare Sotto-risorsa di destinazione su databricks_ui_api.
  5. Selezionare la rete virtuale associata all'area di lavoro.
  6. Seleziona la subnet del tuo endpoint privato.
  7. Verificare che l'integrazione con la zona DNS privata sia impostata su . Azure seleziona automaticamente la privatelink.azuredatabricks.net zona. Se non esiste già, Azure mostra una nuova privatelink.azuredatabricks.net zona.

Passaggi condivisi

Passaggio 1: Verificare IL DNS

Se si usa l'integrazione DNS privata di Azure predefinita, Azure crea automaticamente un record di indirizzi DNS per l'area di lavoro.

  1. Verificare i record di zona DNS privati:
    1. Nel portale di Azure cercare e passare alla zona DNS privato denominata privatelink.azuredatabricks.net.
    2. Verificare che i record seguenti A esistano e puntino agli indirizzi IP privati degli endpoint:
      1. Registrazione dell'interfaccia utente/API dell'area di lavoro
        • Nome: ID dell'area di lavoro univoco, ad esempio adb-xxxxxxxxxxxxxxxx.x
        • Valore: l'indirizzo IP privato del tuo endpoint databricks_ui_api.
      2. Record di autenticazione del browser:
        • Nome: scegliere un nome descrittivo, ad esempio pl-auth.<your_region>.
        • Valore: l'indirizzo IP privato del tuo endpoint browser_authentication.

Nota

Le risorse di calcolo della rete virtuale della tua area di lavoro devono risolvere l'URL dell'area di lavoro verso l'indirizzo IP dell'endpoint privato, anziché un indirizzo IP pubblico. Collegare la privatelink.azuredatabricks.net zona DNS privata alla rete virtuale dell'area di lavoro o configurare l'inoltro DNS se si usa un'architettura hub-spoke.

Verificare la connessione collegamento privato del piano di calcolo classico avviando un cluster.

  1. Accedere all'area di lavoro di Azure Databricks.
  2. Passare a Calcolo nella barra laterale.
  3. Fare clic su Crea calcolo, assegnare un nome e fare clic su Crea.

L'avvio del cluster può richiedere alcuni minuti. Un avvio corretto del cluster è un buon primo controllo, ma è necessario eseguire un semplice comando di query o notebook per confermare completamente che la connessione funziona.

  • Se l'avvio del cluster non riesce dopo 10-15 minuti e il registro eventi del cluster mostra un errore simile a Cluster terminated. Reason: Control Plane Request Failure, la configurazione collegamento privato non è configurata correttamente. Esaminare i passaggi in questa pagina per risolvere il problema.