Condividi tramite


Connettere Tableau ad Azure Databricks

Questo articolo illustra come connettere Azure Databricks a Tableau Desktop e include informazioni su altre edizioni di Tableau. È possibile connettersi tramite Partner Connect oppure connettersi manualmente.

Quando si usa Azure Databricks come origine dati con Tableau, è possibile fornire potenti analisi interattive, portando i contributi dei data scientist e dei data engineer agli analisti aziendali tramite il ridimensionamento a set di dati di grandi dimensioni.

Per altre informazioni su come usare Tableau Desktop per creare report e visualizzazioni, vedere Esercitazione: Introduzione a Tableau Desktop.

Requisiti

Connettersi a Tableau Desktop con Partner Connect

È possibile usare Partner Connect per connettere un cluster o sql warehouse con Tableau Desktop in pochi clic.

  1. Assicurarsi che l'account, l'area di lavoro di Azure Databricks e l'utente connesso soddisfino tutti i requisiti per Partner Connect.
  2. Nella barra laterale fare clic su Pulsante Connetti partner Partner Connect (Connetti partner).
  3. Fare clic sul riquadro Tableau .
  4. Nella finestra di dialogo Connetti al partner scegliere il nome della risorsa di calcolo di Azure Databricks da connettere.
  5. Scegliere Scarica file di connessione.
  6. Aprire il file di connessione scaricato, che avvia Tableau Desktop.
  7. In Tableau Desktop immettere le credenziali di autenticazione e quindi fare clic su Accedi:
    • Per usare un token MICROSOFT Entra ID, immettere il token per Username (Nome utente ) e il token Microsoft Entra ID (TOKEN) per Password.
    • Per usare un token di accesso personale di Azure Databricks, immettere token per Nome utente e token di accesso personale per Password.
    • Per usare le credenziali di Microsoft Entra ID, fare clic su Modifica connessione, fare doppio clic sul database nella scheda Dati e quindi selezionare Microsoft Entra ID nell'elenco Autenticazione .
      • Per Tableau Desktop 2021.1 e versioni successive:

        1. Se non si usa un account guest B2B di Microsoft Entra (in precedenza Azure Active Directory) o Azure Databricks in Azure per enti pubblici, è sufficiente immettere https://login.microsoftonline.com/common come endpoint OAuth.

        Autenticazione di configurazione

        1. Se si usa un account guest B2B di Microsoft Entra ID o Azure Databricks in Azure per enti pubblici, contattare l'amministratore per ottenere un warehouse microsoft Entra ID dedicato.

        Nota

        Se non si è un amministratore, viene visualizzato un errore Di approvazione dell'amministratore . Chiedere a un amministratore globale, all'amministratore di applicazioni cloud o all'amministratore dell'applicazione di concedere le autorizzazioni per connettersi a Tableau, quindi provare di nuovo ad accedere.

        Se l'account Microsoft Entra ID ha abilitato il flusso di lavoro di consenso amministratore, Tableau Desktop chiede di richiedere l'accesso a Tableau. Dopo che un amministratore globale, un amministratore di applicazioni cloud o un amministratore dell'applicazione approva la richiesta, provare a eseguire di nuovo l'accesso.

Dopo aver eseguito la connessione con Tableau Desktop, è possibile arrestarsi qui. Le informazioni rimanenti in questo articolo illustrano informazioni aggiuntive su Tableau, ad esempio la connessione manuale con Tableau Desktop, la configurazione di Tableau Server in Linux, l'uso di Tableau Online e le procedure consigliate e la risoluzione dei problemi con Tableau.

Connettersi manualmente a Tableau Desktop

Seguire queste istruzioni per connettersi a un cluster o a SQL Warehouse con Tableau Desktop.

Nota

Per connettersi più velocemente con Tableau Desktop, usare Partner Connect.

  1. Avviare Tableau Desktop.

  2. Fare clic su File > Nuovo.

  3. Nella scheda Dati fare clic su Connetti ai dati.

  4. Nell'elenco dei connettori fare clic su Databricks.

  5. Immettere il nome host del server e il percorso HTTP.

  6. In Autenticazione scegliere il metodo di autenticazione, immettere le credenziali di autenticazione e quindi fare clic su Accedi.

    • Per usare un token ID Microsoft Entra, selezionare Personal Access Token (Token di accesso personale) e immettere il token MICROSOFT Entra ID per Password.

    • Per usare un token di accesso personale di Azure Databricks, selezionare Token di accesso personale e immettere il token di accesso personale per Password.

    • Per usare le credenziali dell'ID Microsoft Entra, selezionare Microsoft Entra ID.

      Per Tableau Desktop 2021.1 e versioni successive:

      • Se non si usa un account guest B2B di Microsoft Entra (in precedenza Azure Active Directory) o Azure Databricks in Azure per enti pubblici, è sufficiente immettere https://login.microsoftonline.com/common come endpoint OAuth.

        Autenticazione di configurazione

        • Se si usa un account guest B2B di Microsoft Entra ID o Azure Databricks in Azure per enti pubblici, contattare l'amministratore per ottenere un warehouse microsoft Entra ID dedicato.

      Nota

      Se non si è un amministratore, viene visualizzato un errore Di approvazione dell'amministratore . Chiedere a un amministratore globale, all'amministratore di applicazioni cloud o all'amministratore dell'applicazione di concedere le autorizzazioni per connettersi a Tableau, quindi provare di nuovo ad accedere.

      Se l'account Microsoft Entra ID ha abilitato il flusso di lavoro di consenso amministratore, Tableau Desktop chiede di richiedere l'accesso a Tableau. Dopo che un amministratore globale, un amministratore di applicazioni cloud o un amministratore dell'applicazione approva la richiesta, provare a eseguire di nuovo l'accesso.

    Se Il catalogo unity è abilitato per l'area di lavoro, impostare anche il catalogo predefinito. Nella scheda Avanzate, per Proprietà connessione, aggiungere Catalog=<catalog-name>. Per modificare il catalogo predefinito, nella scheda SQL iniziale immettere USE CATALOG <catalog-name>.

Dopo aver eseguito la connessione con Tableau Desktop, è possibile arrestarsi qui. Le informazioni rimanenti in questo articolo illustrano informazioni aggiuntive su Tableau, ad esempio la configurazione di Tableau Server in Linux, l'uso di Tableau Online e le procedure consigliate e la risoluzione dei problemi con Tableau.

Tableau Server in Linux

Modificare /etc/odbcinst.ini per includere quanto segue:

[Simba Spark ODBC Driver 64-bit]
Description=Simba Spark ODBC Driver (64-bit)
Driver=/opt/simba/spark/lib/64/libsparkodbc_sb64.so

Nota

Tableau Server in Linux consiglia l'architettura di elaborazione a 64 bit.

Pubblicare e aggiornare una cartella di lavoro in Tableau Online

Questo articolo illustra come pubblicare una cartella di lavoro da Tableau Desktop a Tableau Online e mantenerla aggiornata quando cambia l'origine dati. È necessaria una cartella di lavoro in Tableau Desktop e un account Tableau Online .

  1. Estrarre i dati della cartella di lavoro da Tableau Desktop: in Tableau Desktop, con la cartella di lavoro che si vuole pubblicare, fare clic su Estrai dati > <data-source-name>>.
  2. Nella finestra di dialogo Estrai dati fare clic su Estrai.
  3. Passare a un percorso nel computer locale in cui si desidera salvare i dati estratti e quindi fare clic su Salva.
  4. Pubblicare l'origine dati della cartella di lavoro in Tableau Online: in Tableau Desktop fare clic su Server Publish Data Source (Pubblica > origine > <data-source-name>dati server).
  5. Se viene visualizzata la finestra di dialogo Di accesso a Tableau Server, fare clic sul collegamento Tableau Online e seguire le istruzioni visualizzate per accedere a Tableau Online.
  6. Nella finestra di dialogo Pubblica origine dati in Tableau Online, accanto a Aggiorna non abilitato, fare clic sul collegamento Modifica.
  7. Nella casella a comparsa visualizzata, per Autenticazione, modificare Aggiorna non abilitata in Consenti l'accesso all'aggiornamento.
  8. Fare clic in un punto qualsiasi all'esterno del riquadro a comparsa per nasconderlo.
  9. Selezionare Aggiorna cartella di lavoro per usare l'origine dati pubblicata.
  10. Fare clic su Pubblica. L'origine dati viene visualizzata in Tableau Online.
  11. In Tableau Online, nella finestra di dialogo Pubblicazione completata fare clic su Pianifica e seguire le istruzioni visualizzate.
  12. Pubblicare la cartella di lavoro in Tableau Online: in Tableau Desktop, con la cartella di lavoro da pubblicare visualizzata, fare clic su Pubblica > cartella di lavoro server.
  13. Nella finestra di dialogo Pubblica cartella di lavoro in Tableau Online fare clic su Pubblica. La cartella di lavoro viene visualizzata in Tableau Online.

Tableau Online verifica la presenza di modifiche all'origine dati in base alla pianificazione impostata e aggiorna la cartella di lavoro pubblicata se vengono rilevate modifiche.

Per altre informazioni, vedere quanto segue nel sito Web tableau:

Procedure consigliate e risoluzione dei problemi

Le due azioni fondamentali per ottimizzare le query di Tableau sono:

  • Ridurre il numero di record sottoposti a query e visualizzati in un singolo grafico o dashboard.
  • Ridurre il numero di query inviate da Tableau in un singolo grafico o dashboard.

La scelta del primo tentativo dipende dal dashboard. Se si dispone di diversi grafici per singoli utenti nello stesso dashboard, è probabile che Tableau invii troppe query ad Azure Databricks. Se sono presenti solo un paio di grafici, ma il caricamento richiede molto tempo, è probabile che vengano restituiti troppi record da Azure Databricks per caricarli in modo efficace.

La registrazione delle prestazioni di Tableau, disponibile sia in Tableau Desktop che in Tableau Server, consente di comprendere dove sono presenti colli di bottiglia delle prestazioni identificando i processi che causano latenza quando si esegue un determinato flusso di lavoro o dashboard.

Abilitare la registrazione delle prestazioni per eseguire il debug di qualsiasi problema di Tableau

Ad esempio, se l'esecuzione di query è il problema, si sa che ha a che fare con il processo del motore dati o con l'origine dati su cui si sta eseguendo una query. Se il layout visivo viene eseguito lentamente, si sa che si tratta di VizQL.

Se la registrazione delle prestazioni indica che la latenza è in esecuzione, è probabile che venga impiegato troppo tempo da Azure Databricks che restituisce i risultati o dalla sovrimpressione ODBC/Connector che elabora i dati in SQL per VizQL. In questo caso, è necessario analizzare ciò che si sta restituendo e tentare di modificare il modello analitico in modo da avere un dashboard per gruppo, segmento o articolo invece di provare a creare il cram di tutto in un dashboard e basarsi su Filtri rapidi.

Se le prestazioni scarse sono causate dall'ordinamento o dal layout visivo, il problema potrebbe essere il numero di contrassegni che il dashboard sta tentando di restituire. Azure Databricks può restituire rapidamente un milione di record, ma Tableau potrebbe non essere in grado di calcolare il layout e ordinare i risultati. Se si tratta di un problema, aggregare la query ed esaminare i livelli inferiori. È anche possibile provare un computer più grande, poiché Tableau è vincolato solo dalle risorse fisiche nel computer in cui è in esecuzione.

Per un'esercitazione approfondita sul registratore delle prestazioni, vedere Creare una registrazione delle prestazioni.

Prestazioni in Tableau Server e Tableau Desktop

In generale, un flusso di lavoro eseguito su Tableau Desktop non è più veloce in Tableau Server. Un dashboard che non viene eseguito in Tableau Desktop non verrà eseguito in Tableau Server. Questo è importante da tenere presente.

In effetti, l'uso di desktop è una tecnica di risoluzione dei problemi molto migliore, perché Tableau Server include più processi da considerare quando si esegue la risoluzione dei problemi. E se le cose funzionano in Tableau Desktop ma non in Tableau Server, è possibile limitare in modo sicuro il problema ai processi in Tableau Server che non si trovano in Tableau Desktop.

Impostazione

Per impostazione predefinita, i parametri dell'URL di connessione sostituiscono quelli nel DSN ODBC Simba. Esistono due modi per personalizzare le configurazioni ODBC da Tableau:

  • .tds file per una singola origine dati:

    1. Seguire le istruzioni in Salvare origini dati per esportare il .tds file per l'origine dati.
    2. Trovare la riga odbc-connect-string-extras='' della proprietà nel .tds file e impostare i parametri. Ad esempio, per abilitare AutoReconnect e UseNativeQuery, è possibile modificare la riga in odbc-connect-string-extras='AutoReconnect=1,UseNativeQuery=1'.
    3. Ricaricare il .tds file riconnettendo la connessione.

    La risorsa di calcolo è ottimizzata per usare meno memoria heap per la raccolta di risultati di grandi dimensioni, in modo da poter gestire più righe per blocco di recupero rispetto all'impostazione predefinita di Simba ODBC. Accodare RowsFetchedPerBlock=100000' al valore della odbc-connect-string-extras proprietà .

  • .tdc file per tutte le origini dati:

    1. Se non è mai stato creato un .tdc file, è possibile aggiungere TableauTdcExample.tdc alla cartella Document/My Tableau Repository/Datasources.
    2. Aggiungere il file alle installazioni di Tableau Desktop di tutti gli sviluppatori, in modo che funzioni quando i dashboard vengono condivisi.

Ottimizzare i grafici (fogli di lavoro)

Esistono diverse ottimizzazioni del grafico tattico che consentono di migliorare le prestazioni dei fogli di lavoro di Tableau.

Per i filtri che non cambiano spesso e non sono destinati a interagire con, usare i filtri di contesto, che accelerano il tempo di esecuzione. Un'altra buona regola generale consiste nell'usare if/else istruzioni anziché case/when istruzioni nelle query.

Tableau può eseguire il push dei filtri nelle origini dati, velocizzando notevolmente la velocità delle query. Per altre informazioni sui filtri di push dell'origine dati, vedere Applicazione di filtri tra più origini dati tramite un parametro e un filtro tra più origini dati .

È consigliabile evitare calcoli di tabella se è possibile perché è necessario analizzare il set di dati completo. Per altre informazioni sui calcoli delle tabelle, vedere Trasformare i valori con calcoli di tabella.

Ottimizzare i dashboard

Ecco alcuni suggerimenti ed esercizi di risoluzione dei problemi che è possibile applicare per migliorare le prestazioni del dashboard di Tableau.

Una fonte comune di problemi con i dashboard di Tableau connessi ad Azure Databricks è l'uso di filtri rapidi nei singoli dashboard che servono diversi utenti, funzioni o segmenti. È possibile collegare filtri rapidi globali a tutti i grafici nel dashboard. Si tratta di una funzionalità eccezionale, ma che può causare rapidamente problemi. Un filtro rapido globale in un dashboard con cinque grafici causa l'invio di almeno 10 query ad Azure Databricks. Questo può aumentare i numeri man mano che vengono aggiunti più filtri e può causare problemi di prestazioni elevati, perché Spark non è progettato per gestire molte query simultanee a partire dallo stesso momento esatto. Ciò diventa più problematico quando il cluster Azure Databricks o SQL Warehouse in uso non è sufficientemente grande da gestire il volume elevato di query.

Come primo passaggio, è consigliabile usare la registrazione delle prestazioni di Tableau per risolvere il problema.

Se le prestazioni scarse sono causate dall'ordinamento o dal layout visivo, il problema potrebbe essere il numero di contrassegni che il dashboard sta tentando di restituire. Azure Databricks può restituire rapidamente un milione di record, ma Tableau potrebbe non essere in grado di calcolare il layout e ordinare i risultati. Se si tratta di un problema, aggregare la query ed esaminare i livelli inferiori. È anche possibile provare un computer più grande, poiché Tableau è vincolato solo dalle risorse fisiche nel computer in cui è in esecuzione.

Per informazioni sul drill-down in Tableau, vedere Drill-down nei dettagli.

In generale, la visualizzazione di molti contrassegni granulari è spesso un modello analitico scadente, perché non fornisce informazioni dettagliate. Il drill-down da livelli più elevati di aggregazione ha più senso e riduce il numero di record che devono essere elaborati e visualizzati.

Usare le azioni per ottimizzare i dashboard

Per eseguire il drill-through dal gruppo al segmento all'articolo per ottenere le stesse analisi e informazioni del dashboard "ocean boiled", è possibile usare le azioni tableau. Le azioni consentono di fare clic su un segno (ad esempio uno stato su una mappa) e di essere inviate a un altro dashboard che filtra in base allo stato selezionato. Ciò riduce la necessità di avere molti filtri in un dashboard e riduce il numero di record che devono essere generati, perché è possibile impostare un'azione per non generare record fino a quando non ottiene un predicato per filtrare.

Per altre informazioni, vedere Azioni e 6 suggerimenti per rendere i dashboard più efficienti.

Memorizzazione nella cache

La memorizzazione nella cache dei dati è un buon modo per migliorare le prestazioni dei fogli di lavoro o dei dashboard.

Memorizzazione nella cache in Tableau

Tableau ha quattro livelli di memorizzazione nella cache prima di tornare ai dati, indipendentemente dal fatto che i dati si tratti di una connessione dinamica o di un'estrazione:

  • Riquadri: se un utente carica esattamente lo stesso dashboard e non cambia nulla, Tableau tenta di riutilizzare gli stessi riquadri per i grafici. Questo è simile ai riquadri di Google Maps.
  • Modello: sono disponibili calcoli matematici usati per generare visualizzazioni nell'evento che non è possibile usare i riquadri. Tableau Server tenta di usare gli stessi modelli.
  • Abstract: vengono archiviati anche i risultati aggregati delle query. Questo è il terzo livello di "difesa". Se una query restituisce Sum(Sales), Count(orders), Sum(Cost), in una query precedente e una query futura vuole solo Sum(Sales), Tableau afferra il risultato e lo usa.
  • Cache nativa: se la query è identica a quella di un'altra, Tableau usa gli stessi risultati. Questo è l'ultimo livello di memorizzazione nella cache. In caso di errore, Tableau passa ai dati.

Frequenza di memorizzazione nella cache in Tableau

Tableau include impostazioni amministrative per la memorizzazione nella cache più o meno spesso. Se il server è impostato su Aggiorna meno spesso, Tableau mantiene i dati nella cache per un massimo di 12 ore. Se è impostata su Aggiorna più spesso, Tableau torna ai dati in ogni aggiornamento della pagina.

I clienti che hanno lo stesso dashboard usato di nuovo, ad esempio "Report della pipeline di lunedì mattina", devono trovarsi in un server impostato su Aggiorna meno spesso in modo che i dashboard usino tutte la stessa cache.

Riscaldamento della cache in Tableau

In Tableau è possibile aggiornare la cache impostando una sottoscrizione per l'invio del dashboard prima di visualizzare il dashboard. Ciò è dovuto al fatto che è necessario eseguire il rendering del dashboard per generare l'immagine per il messaggio di posta elettronica della sottoscrizione. Vedere Riscaldamento della cache di Tableau Server con sottoscrizioni.

Tableau Desktop: viene visualizzato l'errore The drivers... are not properly installed

Problema: quando si tenta di connettere Tableau Desktop a Databricks, Tableau visualizza un messaggio di errore nella finestra di dialogo di connessione con un collegamento alla pagina di download del driver, in cui è possibile trovare i collegamenti driver e le istruzioni di installazione.

Causa: l'installazione di Tableau Desktop non esegue un driver supportato.

Soluzione: scaricare il driver ODBC di Databricks versione 2.6.15 o successiva.

Vedere anche: Errore "I driver... non sono installati correttamente" nel sito Web tableau.

Risorse aggiuntive