Connettere l'area di lavoro di Azure Databricks alla rete locale

Questo articolo illustra come stabilire la connettività dall'area di lavoro di Azure Databricks alla rete locale. Il traffico viene instradato tramite una rete virtuale (VNet) di transito alla rete locale, usando la topologia hub-spoke seguente.

Virtual network deployment

Se è necessaria assistenza seguendo questa guida, contattare i team dell'account Microsoft e Databricks.

Requisiti

L'area di lavoro di Azure Databricks deve essere distribuita nella propria rete virtuale, nota anche come inserimento di reti virtuali.

Passaggio 1: Configurare una rete virtuale di transito con Azure Rete virtuale Gateway

È necessario un gateway Rete virtuale di Azure (ExpressRoute o VPN) in una rete virtuale di transito, configurato usando uno di questi metodi. Se si dispone già di un gateway appropriato, passare a Eseguire il peering della rete virtuale di Azure Databricks con la rete virtuale di transito.

Se ExpressRoute è già configurato tra la rete locale e Azure, seguire la procedura descritta in Configurare un gateway di rete virtuale per ExpressRoute usando il portale di Azure.

In caso contrario, seguire i passaggi da 1 a 5 in Configurare una connessione gateway VPN da rete virtuale a rete virtuale usando il portale di Azure.

Se è necessaria assistenza, contattare il team dell'account Microsoft.

Passaggio 2: Eseguire il peering della rete virtuale di Azure Databricks con la rete virtuale di transito

Se l'area di lavoro di Azure Databricks si trova nella stessa rete virtuale del gateway Rete virtuale, passare a Creare route definite dall'utente e associarle alle subnet di rete virtuale di Azure Databricks.

In caso contrario, seguire le istruzioni in Peer virtual networks to peer the Azure Databricks VNet to the transit VNet (Peer virtual networks to peer the Azure Databricks VNet to the transit VNet), selezionando le opzioni seguenti:

  • Usare gateway remoti sul lato rete virtuale di Azure Databricks.
  • Consentire il transito del gateway sul lato rete virtuale di transito .

Per informazioni dettagliate, vedere Creare un peering.

Nota

Se la connessione di rete locale ad Azure Databricks non funziona con le impostazioni precedenti, è anche possibile selezionare l'opzione Consenti traffico inoltrato su entrambi i lati del peering per risolvere il problema.

Per informazioni sulla configurazione del transito del gateway VPN per il peering di rete virtuale, vedere Configurare il transito del gateway VPN per il peering di rete virtuale.

Passaggio 3: Creare route definite dall'utente e associarle alle subnet di rete virtuale di Azure Databricks

Dopo aver eseguito il peering della rete virtuale di Azure Databricks con la rete virtuale di transito, Azure configura automaticamente tutte le route usando la rete virtuale di transito. La configurazione automatica non include la route di ritorno dai nodi del cluster al piano di controllo di Azure Databricks. È necessario creare manualmente queste route personalizzate usando route definite dall'utente.

  1. Creare una tabella di route, abilitando la propagazione della route BGP.

    Nota

    In alcuni casi, la propagazione della route BGP causa errori durante la convalida dell'installazione della connessione di rete locale. Come ultima risorsa, è possibile disabilitare la propagazione della route BGP.

  2. Aggiungere route definite dall'utente per i servizi seguenti, usando le istruzioni riportate in Route personalizzate.

    Se la connettività del cluster sicura (SCC) è abilitata per l'area di lavoro, usare l'IP dell'inoltro SCC anziché l'IP NAT del piano di controllo.

    Origine Prefisso indirizzo Tipo hop successivo
    Predefinito IP NAT del piano di controllo
    (Solo se SCC è disabilitato)
    Internet
    Default IP dell'inoltro SCC
    (Solo se SCC è abilitato)
    Internet
    Default IP dell'app Web Internet
    Default IP dell'infrastruttura estesa Internet
    Default Metastore IP Internet
    Default IP dell'archivio BLOB artefatto Internet
    Default IP di archiviazione BLOB del log Internet
    Default IP di archiviazione radice DBFS (ADLS) Internet
    Default IP di archiviazione radice DBFS (BLOB) per le aree di lavoro create prima del 6 marzo 2023. Internet

    Per ottenere gli indirizzi IP per ognuno di questi servizi, seguire le istruzioni riportate in Impostazioni route definite dall'utente per Azure Databricks.

    Se la route basata su IP non riesce durante la convalida dell'installazione, è possibile creare un endpoint di servizio per Microsoft.Archiviazione per instradare tutto il traffico di archiviazione radice DBFS attraverso il backbone di Azure. Se si usa questo approccio, non è necessario creare route definite dall'utente per l'archiviazione radice DBFS.

    Nota

    Per accedere ad altri servizi dati PaaS di Azure, ad esempio Cosmos DB o Azure Synapse Analytics, da Azure Databricks, è necessario aggiungere route definite dall'utente per tali servizi alla tabella di route. Risolvere ogni endpoint nell'indirizzo IP usando nslookup o un comando equivalente.

  3. Associare la tabella di route alle subnet pubbliche e private della rete virtuale di Azure Databricks usando le istruzioni riportate in Associare una tabella di route a una subnet.

    Dopo aver associato la tabella di route personalizzata alle subnet di rete virtuale di Azure Databricks, non è necessario modificare le regole di sicurezza in uscita nel gruppo di sicurezza di rete. Ad esempio, non è necessario rendere la regola in uscita più specifica, perché le route controllerranno l'uscita effettiva.

Passaggio 4: Convalidare la configurazione

Per convalidare l'installazione:

  1. Creare un cluster nell'area di lavoro di Azure Databricks.

    Se la creazione di un cluster ha esito negativo, seguire le istruzioni di installazione, provando le opzioni di configurazione alternative una alla volta.

    Se non è ancora possibile creare un cluster, verificare che la tabella di route includa tutte le route definite dall'utente necessarie. Se sono stati usati endpoint di servizio anziché route definite dall'utente per ADLS Gen2 (per le aree di lavoro create prima del 6 marzo 2023, Archiviazione BLOB di Azure), controllare anche questi endpoint.

    Se non è ancora possibile creare un cluster, contattare i team dell'account Microsoft e Databricks per assistenza.

  2. Eseguire il ping di un indirizzo IP locale da un notebook usando il comando seguente:

    %sh
    ping <IP>
    

Per altre indicazioni sulla risoluzione dei problemi, vedere queste risorse:

Passaggi di configurazione facoltativi

Opzione: instradare il traffico di Azure Databricks usando un'appliance virtuale o un firewall

È possibile filtrare tutto il traffico in uscita dai nodi del cluster Azure Databricks usando un firewall o un'appliance DLP, ad esempio Firewall di Azure, Palo Alto o Barracuda. In questo modo è possibile controllare il traffico in uscita per soddisfare i criteri di sicurezza e aggiungere un singolo INDIRIZZO IP pubblico o CIDR simile a NAT per tutti i cluster a un elenco di indirizzi consentiti.

Modificare questi passaggi in base alle esigenze per il firewall o l'appliance DLP:

  1. Configurare un'appliance virtuale o un firewall all'interno della rete virtuale di transito usando le istruzioni in Creare un'appliance virtuale di rete.

    Se è necessaria una singola configurazione del firewall per più aree di lavoro, è possibile creare il firewall in una subnet sicura o perimetrale all'interno della rete virtuale di Azure Databricks, separata dalle subnet private e pubbliche esistenti.

  2. Creare una route aggiuntiva nella tabella di route personalizzata a 0.0.0.0/0.

    • Impostare il tipo hop successivo su "Appliance virtuale".

    • Impostare l'indirizzo hop successivo.

      Non rimuovere le route create nel passaggio 3: Creare route definite dall'utente e associarle alle subnet di rete virtuale di Azure Databricks, con un'eccezione: se tutto il traffico BLOB deve essere instradato attraverso il firewall, è possibile rimuovere le route per il traffico BLOB.

  3. Se si usa l'approccio di subnet sicura o perimetrale, è possibile creare una tabella di route aggiuntiva associata esclusivamente alla subnet della rete perimetrale. In tale tabella di route creare una route a 0.0.0.0.

    Impostare il tipo hop successivo della route su Internet se il traffico è destinato a una rete pubblica o a Rete virtuale Gateway se il traffico è destinato a una rete locale.

  4. Configurare le regole di autorizzazione e negazione nell'appliance firewall.

    Se sono state rimosse le route per l'archiviazione BLOB, aggiungere tali route all'elenco di indirizzi consentiti nel firewall.

    Se i cluster dipendono da repository pubblici, ad esempio repository del sistema operativo o registri contenitori, aggiungerli all'elenco elementi consentiti.

    Per informazioni sugli elenchi di elementi consentiti, vedere Impostazioni di route definite dall'utente per Azure Databricks.

Opzione: Configurare il DNS personalizzato

È possibile usare DNS personalizzato con le aree di lavoro di Azure Databricks distribuite nella propria rete virtuale. Per altre informazioni su come configurare DNS personalizzato per una rete virtuale di Azure, vedere gli articoli Microsoft seguenti:

.. importante: per risolvere gli indirizzi IP per gli artefatti di Azure, è necessario configurare il DNS personalizzato per inoltrare queste richieste al sistema di risoluzione ricorsivo di Azure.