Connettersi alle origini dati

Articolo
03/18/2024

Questo articolo fornisce raccomandazioni su come gli amministratori e altri utenti esperti possono configurare le connessioni tra Azure Databricks e le origini dati. Se si sta tentando di determinare se si ha accesso per leggere i dati da un sistema esterno, iniziare esaminando i dati a cui si ha accesso nell'area di lavoro. Vedere Individuare i dati.

È possibile connettere l'account Azure Databricks alle origini dati, ad esempio l'archiviazione di oggetti cloud, i sistemi di gestione di database relazionali, i servizi di dati di streaming e le piattaforme aziendali, ad esempio i CRL. I privilegi specifici necessari per configurare le connessioni dipendono dall'origine dati, dalla modalità di configurazione delle autorizzazioni nell'area di lavoro di Azure Databricks, dalle autorizzazioni necessarie per interagire con i dati nell'origine, dal modello di governance dei dati e dal metodo preferito per la connessione.

La maggior parte dei metodi richiede privilegi elevati sia per l'origine dati che per l'area di lavoro di Azure Databricks per configurare le autorizzazioni necessarie per integrare i sistemi. Gli utenti senza queste autorizzazioni devono richiedere assistenza. Vedere Richiedere l'accesso alle origini dati.

Configurare le connessioni di archiviazione oggetti

L'archiviazione di oggetti cloud offre la base per l'archiviazione della maggior parte dei dati in Azure Databricks. Per altre informazioni sull'archiviazione di oggetti cloud e sulla posizione in cui Azure Databricks archivia i dati, vedere Dove azure Databricks scrive i dati.

Databricks consiglia di usare Unity Catalog per configurare l'accesso all'archiviazione di oggetti cloud. Unity Catalog offre la governance dei dati sia per i dati strutturati che non strutturati nell'archiviazione di oggetti cloud. Vedere Connessione all'archiviazione di oggetti cloud usando il catalogo unity.

I clienti che non usano Unity Catalog devono configurare le connessioni usando metodi legacy. Vedere Configurare l'accesso all'archiviazione di oggetti cloud per Azure Databricks.

Per configurare la rete nell'archiviazione di oggetti cloud, vedere Rete.

Configurare le connessioni a sistemi dati esterni

Databricks consiglia diverse opzioni per configurare le connessioni a sistemi dati esterni a seconda delle esigenze. La tabella seguente offre una panoramica generale di queste opzioni:

Opzione	Descrizione
Lakehouse Federation	Fornisce l'accesso in sola lettura ai dati nei sistemi dati aziendali. Connessione vengono configurate tramite Il catalogo unity a livello di catalogo o schema, sincronizzando più tabelle con una singola configurazione. Vedere Che cos'è la federazione lakehouse.
Partner Connessione	Sfrutta le soluzioni partner tecnologiche per connettersi a origini dati esterne e automatizzare l'inserimento dei dati nel lakehouse. Alcune soluzioni includono anche L'ETL inverso e l'accesso diretto ai dati lakehouse da sistemi esterni. Vedere Che cos'è databricks Partner Connessione?
Driver	Azure Databricks include driver per sistemi dati esterni in ogni databricks Runtime. Facoltativamente, è possibile installare driver di terze parti per accedere ai dati in altri sistemi. È necessario configurare le connessioni per ogni tabella. Alcuni driver includono l'accesso in scrittura. Vedere Connessione ai sistemi esterni.
JDBC	Diversi driver inclusi per i sistemi esterni si basano sul supporto JDBC nativo e l'opzione JDBC offre opzioni estendibili per la configurazione delle connessioni ad altri sistemi. È necessario configurare le connessioni per ogni tabella. Vedere Eseguire query sui database con JDBC.

Connessione alle origini dati in streaming

Azure Databricks offre connettori ottimizzati per molti sistemi di dati di streaming.

Per tutte le origini dati di streaming, è necessario generare credenziali che forniscono l'accesso e caricano queste credenziali in Azure Databricks. Databricks consiglia di archiviare le credenziali usando segreti, perché è possibile usare i segreti per tutte le opzioni di configurazione e in tutte le modalità di accesso.

Tutti i connettori dati per le origini di streaming supportano il passaggio di credenziali usando le opzioni quando si definiscono le query di streaming. Vedere Configurare le origini dati di streaming.

Richiedere l'accesso alle origini dati

In molte organizzazioni la maggior parte degli utenti non dispone di privilegi sufficienti per Azure Databricks o origini dati esterne per configurare le connessioni dati.

L'organizzazione potrebbe aver già configurato l'accesso a un'origine dati usando uno dei modelli descritti negli articoli collegati da questa pagina. Se l'organizzazione ha un processo ben definito per richiedere l'accesso ai dati, Databricks consiglia di seguire questo processo.

Se non si è certi di come ottenere l'accesso a un'origine dati, questa procedura può essere utile:

Usare Esplora cataloghi per visualizzare le tabelle e i volumi a cui è possibile accedere. Vedere Che cos'è Esplora cataloghi?.
Chiedere ai colleghi o ai responsabili delle origini dati a cui possono accedere.
- La maggior parte delle organizzazioni usa gruppi sincronizzati dal provider di identità ,ad esempio Okta o Microsoft Entra ID (in precedenza Azure Active Directory) per gestire le autorizzazioni per gli utenti dell'area di lavoro. Se altri membri del team possono accedere alle origini dati a cui è necessario accedere, chiedere a un amministratore dell'area di lavoro di aggiungere l'utente al gruppo corretto per concedere l'accesso.
- Se una determinata tabella, volume o origine dati è stata configurata da un collega, tale utente deve disporre delle autorizzazioni necessarie per concedere l'accesso ai dati.
Alcune organizzazioni configurano le autorizzazioni di accesso ai dati tramite le impostazioni nei cluster di calcolo e nei data warehouse SQL.
- L'accesso alle origini dati può variare in base al calcolo.
- È possibile visualizzare l'autore di calcolo nella scheda Calcolo . Rivolgersi all'autore per chiedere informazioni sulle origini dati che devono essere accessibili.