Anslut Tableau till Azure Databricks

Den här artikeln visar hur du ansluter Azure Databricks till Tableau Desktop och innehåller information om andra Tableau-utgåvor. Du kan ansluta via Partner Anslut eller så kan du ansluta manuellt.

När du använder Azure Databricks som datakälla med Tableau kan du tillhandahålla kraftfulla interaktiva analyser som ger dina dataforskares och datateknikers bidrag till dina affärsanalytiker genom att skala till massiva datamängder.

Mer information om hur du använder Tableau Desktop för att skapa rapporter och visualiseringar finns i Självstudie: Kom igång med Tableau Desktop.

Krav

Anslut till Tableau Desktop med hjälp av Partner Anslut

Du kan använda Partner Anslut för att ansluta ett kluster eller SQL-lager med Tableau Desktop med bara några få klick.

  1. Kontrollera att ditt Azure Databricks-konto, din arbetsyta och den inloggade användaren alla uppfyller kraven för Partner Anslut.
  2. I sidofältet klickar du på Knappen Partner AnslutPartner Anslut.
  3. Klicka på Tableau-panelen.
  4. I dialogrutan Anslut till partner väljer du namnet på den Azure Databricks-beräkningsresurs som du vill ansluta till för Compute.
  5. Välj Ladda ned anslutningsfil.
  6. Öppna den nedladdade anslutningsfilen, som startar Tableau Desktop.
  7. I Tableau Desktop anger du dina autentiseringsuppgifter och klickar sedan på Logga in:
    • Om du vill använda en Microsoft Entra-ID-token anger du token för Användarnamn och din Microsoft Entra-ID-token för Lösenord.
    • Om du vill använda en personlig åtkomsttoken för Azure Databricks anger du token för Användarnamn och din personliga åtkomsttoken för Lösenord.
    • Om du vill använda dina autentiseringsuppgifter för Microsoft Entra-ID klickar du på Redigera Anslut ion, dubbelklickar på databasen på fliken Data och väljer sedan Microsoft Entra-ID i listan Autentisering.
      • För Tableau Desktop 2021.1 och senare:

        1. Om du inte använder ett Microsoft Entra-ID (tidigare Azure Active Directory) B2B-gästkonto eller Azure Databricks i Azure Government kan du bara ange https://login.microsoftonline.com/common som OAuth-slutpunkt.

        Autentisering av konfiguration

        1. Om du använder ett Microsoft Entra ID B2B-gästkonto eller Azure Databricks på Azure Government kontaktar du administratören för att få ett dedikerat Microsoft Entra ID-lager.

        Kommentar

        Om du inte är administratör visas felet Behöver administratörsgodkännande . Be en global administratör, molnprogramadministratör eller programadministratör att ge dig behörighet att ansluta till Tableau och sedan försöka logga in igen.

        Om ditt Microsoft Entra-ID-konto har aktiverat arbetsflödet för administratörsmedgivande uppmanar Tableau Desktop dig att begära åtkomst till Tableau. När en global administratör, molnprogramadministratör eller programadministratör har godkänt begäran kan du försöka logga in igen.

När du har anslutit till Tableau Desktop kan du sluta här. Den återstående informationen i den här artikeln beskriver ytterligare information om Tableau, till exempel anslutning manuellt med Tableau Desktop, konfiguration av Tableau Server i Linux, hur du använder Tableau Online och metodtips och felsökning med Tableau.

Anslut till Tableau Desktop manuellt

Följ de här anvisningarna för att ansluta till ett kluster eller SQL-lager med Tableau Desktop.

Kommentar

Om du vill ansluta snabbare med Tableau Desktop använder du Partner Anslut.

  1. Starta Tableau Desktop.

  2. Klicka på Ny fil>.

  3. På fliken Data klickar du på Anslut till Data.

  4. I listan över anslutningsappar klickar du på Databricks.

  5. Ange servervärdnamnet och HTTP-sökvägen.

  6. För Autentisering väljer du din autentiseringsmetod, anger dina autentiseringsuppgifter och klickar sedan på Logga in.

    • Om du vill använda en Microsoft Entra-ID-token väljer du Personlig åtkomsttoken och anger din Microsoft Entra-ID-token som lösenord.

    • Om du vill använda en personlig åtkomsttoken för Azure Databricks väljer du Personlig åtkomsttoken och anger din personliga åtkomsttoken för Lösenord.

    • Om du vill använda dina autentiseringsuppgifter för Microsoft Entra-ID väljer du Microsoft Entra-ID.

      För Tableau Desktop 2021.1 och senare:

      • Om du inte använder ett Microsoft Entra-ID (tidigare Azure Active Directory) B2B-gästkonto eller Azure Databricks i Azure Government kan du bara ange https://login.microsoftonline.com/common som OAuth-slutpunkt.

        Autentisering av konfiguration

        • Om du använder ett Microsoft Entra ID B2B-gästkonto eller Azure Databricks på Azure Government kontaktar du administratören för att få ett dedikerat Microsoft Entra ID-lager.

      Kommentar

      Om du inte är administratör visas felet Behöver administratörsgodkännande . Be en global administratör, molnprogramadministratör eller programadministratör att ge dig behörighet att ansluta till Tableau och sedan försöka logga in igen.

      Om ditt Microsoft Entra-ID-konto har aktiverat arbetsflödet för administratörsmedgivande uppmanar Tableau Desktop dig att begära åtkomst till Tableau. När en global administratör, molnprogramadministratör eller programadministratör har godkänt begäran kan du försöka logga in igen.

    Om Unity Catalog är aktiverat för din arbetsyta anger du dessutom standardkatalogen. På fliken Avancerat lägger du till Catalog=<catalog-name>för egenskaper för Anslut ion. Om du vill ändra standardkatalogen går du till fliken Initial SQL och anger USE CATALOG <catalog-name>.

När du har anslutit till Tableau Desktop kan du sluta här. Den återstående informationen i den här artikeln beskriver ytterligare information om Tableau, till exempel hur du konfigurerar Tableau Server i Linux, hur du använder Tableau Online och metodtips och felsökning med Tableau.

Tableau Server på Linux

Redigera /etc/odbcinst.ini för att inkludera följande:

[Simba Spark ODBC Driver 64-bit]
Description=Simba Spark ODBC Driver (64-bit)
Driver=/opt/simba/spark/lib/64/libsparkodbc_sb64.so

Kommentar

Tableau Server på Linux rekommenderar 64-bitars bearbetningsarkitektur.

Publicera och uppdatera en arbetsbok på Tableau Online

Den här artikeln visar hur du publicerar en arbetsbok från Tableau Desktop till Tableau Online och håller den uppdaterad när datakällan ändras. Du behöver en arbetsbok i Tableau Desktop och ett Tableau Online-konto .

  1. Extrahera arbetsbokens data från Tableau Desktop: i Tableau Desktop, med den arbetsbok som du vill publicera, klickar du på Extrahera data><data-source-name>>.
  2. I dialogrutan Extrahera data klickar du på Extrahera.
  3. Bläddra till en plats på den lokala datorn där du vill spara extraherade data och klicka sedan på Spara.
  4. Publicera arbetsbokens datakälla till Tableau Online: i Tableau Desktop klickar du på Server > Publicera datakälla ><data-source-name>.
  5. Om dialogrutan Logga in på Tableau Server visas klickar du på länken Tableau Online och följer anvisningarna på skärmen för att logga in på Tableau Online.
  6. Klicka på länken Redigera bredvid Uppdatera inte aktiverat i dialogrutan Publicera datakälla till Tableau Online.
  7. I den utfällbara rutan som visas för autentisering ändrar du Uppdatera inte aktiverat till Tillåt uppdateringsåtkomst.
  8. Klicka någonstans utanför den här utfällbara menyn för att dölja den.
  9. Välj Uppdatera arbetsbok för att använda den publicerade datakällan.
  10. Klicka på Publicera. Datakällan visas i Tableau Online.
  11. Klicka på Schema i dialogrutan Publicerings färdig i Tableau Online och följ anvisningarna på skärmen.
  12. Publicera arbetsboken till Tableau Online: i Tableau Desktop, med den arbetsbok som du vill publicera, klickar du på ServerPubliceringsarbetsbok>.
  13. I dialogrutan Publicera arbetsbok till Tableau Online klickar du på Publicera. Arbetsboken visas i Tableau Online.

Tableau Online söker efter ändringar i datakällan enligt det schema du anger och uppdaterar den publicerade arbetsboken om ändringar identifieras.

Mer information finns på tableau-webbplatsen:

Bästa praxis och felsökning

De två grundläggande åtgärderna för att optimera Tableau-frågor är:

  • Minska antalet poster som efterfrågas och visualiseras i ett enda diagram eller en instrumentpanel.
  • Minska antalet frågor som skickas av Tableau i ett enda diagram eller en instrumentpanel.

Att bestämma vilket du vill prova först beror på din instrumentpanel. Om du har ett antal olika diagram för enskilda användare på samma instrumentpanel är det troligt att Tableau skickar för många frågor till Azure Databricks. Om du bara har ett par diagram, men det tar lång tid att läsa in dem, finns det förmodligen för många poster som returneras av Azure Databricks för att kunna läsas in effektivt.

Tableau-prestandainspelning, som är tillgänglig på både Tableau Desktop och Tableau Server, kan hjälpa dig att förstå var flaskhalsar i prestanda är genom att identifiera processer som orsakar svarstid när du kör ett visst arbetsflöde eller en viss instrumentpanel.

Aktivera prestandainspelning för att felsöka eventuella Tableau-problem

Om frågekörning till exempel är problemet vet du att det har att göra med datamotorprocessen eller datakällan som du frågar efter. Om den visuella layouten går långsamt vet du att det är VizQL.

Om prestandainspelningen säger att svarstiden är i körningen av frågan är det troligt att det tar för lång tid för Azure Databricks att returnera resultaten eller av ODBC/Anslut eller överlägg som bearbetar data till SQL för VizQL. När detta inträffar bör du analysera vad du returnerar och försöka ändra analysmönstret så att det finns en instrumentpanel per grupp, segment eller artikel i stället för att försöka klämma in allt i en instrumentpanel och förlita dig på snabbfilter.

Om den dåliga prestandan orsakas av sortering eller visuell layout kan problemet vara antalet märken som instrumentpanelen försöker returnera. Azure Databricks kan snabbt returnera en miljon poster, men Tableau kanske inte kan beräkna layouten och sortera resultatet. Om det här är ett problem aggregerar du frågan och ökar detaljnivån till de lägre nivåerna. Du kan också prova en större dator eftersom Tableau endast begränsas av fysiska resurser på den dator där den körs.

En djupgående självstudie om prestandaregistratorn finns i Skapa en prestandainspelning.

Prestanda på Tableau Server jämfört med Tableau Desktop

I allmänhet är ett arbetsflöde som körs på Tableau Desktop inte snabbare på Tableau Server. En instrumentpanel som inte körs på Tableau Desktop körs inte på Tableau Server. Detta är viktigt att tänka på.

Att få saker att fungera på Desktop är faktiskt en mycket bättre felsökningsteknik, eftersom Tableau Server har fler processer att tänka på när du felsöker. Och om saker fungerar i Tableau Desktop men inte i Tableau Server kan du på ett säkert sätt begränsa problemet till processerna i Tableau Server som inte finns i Tableau Desktop.

Konfiguration

Som standard åsidosätter parametrarna från anslutnings-URL:en dem i Simba ODBC DSN. Det finns två sätt att anpassa ODBC-konfigurationerna från Tableau:

  • .tds fil för en enda datakälla:

    1. Följ anvisningarna i Spara datakällor för att exportera .tds filen för datakällan.
    2. Leta upp egenskapsraden odbc-connect-string-extras=''.tds i filen och ange parametrarna. Om du till exempel vill aktivera AutoReconnect och UseNativeQuerykan du ändra raden till odbc-connect-string-extras='AutoReconnect=1,UseNativeQuery=1'.
    3. Ladda in filen igen .tds genom att återansluta anslutningen.

    Beräkningsresursen är optimerad för att använda mindre heapminne för att samla in stora resultat, så att den kan hantera fler rader per hämtningsblock än Simba ODBC:s standard. RowsFetchedPerBlock=100000' Lägg till värdet för odbc-connect-string-extras egenskapen.

  • .tdc fil för alla datakällor:

    1. Om du aldrig har skapat en .tdc fil kan du lägga till TableauTdcExample.tdc i mappen Document/My Tableau Repository/Datasources.
    2. Lägg till filen i alla utvecklares Tableau Desktop-installationer så att den fungerar när instrumentpanelerna delas.

Optimera diagram (kalkylblad)

Det finns ett antal taktiska diagramoptimeringar som kan hjälpa dig att förbättra prestandan för dina Tableau-kalkylblad.

För filter som inte ändras ofta och inte är avsedda att interagera med använder du kontextfilter som påskyndar körningstiden. En annan bra tumregel är att använda if/else instruktioner i stället för case/when instruktioner i dina frågor.

Tableau kan push-överföra filter till datakällor, vilket avsevärt kan påskynda frågehastigheterna. Mer information om push-filter finns i Filtrera över flera datakällor med hjälp av en parameter och filtrera data mellan flera datakällor .

Det är bäst att undvika tabellberäkningar om du kan eftersom de behöver genomsöka hela datamängden. Mer information om tabellberäkningar finns i Transformera värden med tabellberäkningar.

Optimera instrumentpaneler

Här följer ett antal tips och felsökningsövningar som du kan använda för att förbättra prestanda för din Tableau-instrumentpanel.

En vanlig källa till problem med Tableau-instrumentpaneler som är anslutna till Azure Databricks är användningen av snabbfilter på enskilda instrumentpaneler som hanterar ett antal olika användare, funktioner eller segment. Du kan koppla globala snabbfilter till alla diagram på instrumentpanelen. Det är en bra funktion, men en som snabbt kan orsaka problem. Ett globalt snabbfilter på en instrumentpanel med fem diagram gör att minst 10 frågor skickas till Azure Databricks. Detta kan öka till fler tal när fler filter läggs till och kan orsaka enorma prestandaproblem, eftersom Spark inte har skapats för att hantera många samtidiga frågor som börjar vid samma exakta tidpunkt. Detta blir mer problematiskt när Azure Databricks-klustret eller SQL-lagret som du använder inte är tillräckligt stort för att hantera den stora mängden frågor.

Som ett första steg rekommenderar vi att du använder Tableau-prestandainspelning för att felsöka vad som kan orsaka problemet.

Om den dåliga prestandan orsakas av sortering eller visuell layout kan problemet vara antalet märken som instrumentpanelen försöker returnera. Azure Databricks kan snabbt returnera en miljon poster, men Tableau kanske inte kan beräkna layouten och sortera resultatet. Om det här är ett problem aggregerar du frågan och ökar detaljnivån till de lägre nivåerna. Du kan också prova en större dator eftersom Tableau endast begränsas av fysiska resurser på den dator där den körs.

Information om hur du ökar detaljnivån i Tableau finns i Öka detaljnivån i informationen.

I allmänhet är många detaljerade märken ofta ett dåligt analytiskt mönster, eftersom det inte ger insikter. Att öka detaljnivån från högre aggregeringsnivåer är mer meningsfullt och minskar antalet poster som behöver bearbetas och visualiseras.

Använda åtgärder för att optimera instrumentpaneler

Om du vill öka detaljnivån från grupp till segment till artikel för att få samma analys och information som instrumentpanelen "ocean boiled" kan du använda Tableau-åtgärder. Med åtgärder kan du klicka på en markering (till exempel ett tillstånd på en karta) och skickas till en annan instrumentpanel som filtrerar baserat på det tillstånd du klickar på. Detta minskar behovet av att ha många filter på en instrumentpanel och minskar antalet poster som behöver genereras, eftersom du kan ange en åtgärd för att inte generera poster förrän den får ett predikat att filtrera på.

Mer information finns i Åtgärder och 6 tips för att göra dina instrumentpaneler mer högpresterande.

Cachelagring

Cachelagring data är ett bra sätt att förbättra prestanda för kalkylblad eller instrumentpaneler.

Cachelagring i Tableau

Tableau har fyra cachelagringsnivåer innan de återgår till data, oavsett om dessa data finns i en live-anslutning eller ett extraheringslager:

  • Paneler: Om någon läser in exakt samma instrumentpanel och ingenting ändras försöker Tableau återanvända samma paneler för diagrammen. Detta liknar Google Kartor paneler.
  • Modell: Det finns matematiska beräkningar som används för att generera visualiseringar om paneler inte kan användas. Tableau Server försöker använda samma modeller.
  • Sammanfattning: Aggregerade resultat av frågor lagras också. Det här är den tredje "försvarsnivån". Om en fråga returnerar Sum(Sales), Count(orders), Sum(Cost), i en tidigare fråga och en framtida fråga bara vill ha Sum(Sales), hämtar Tableau det resultatet och använder det.
  • Intern cache: Om frågan är exakt samma som en annan, använder Tableau samma resultat. Det här är den sista cachelagringsnivån. Om detta misslyckas går Tableau till data.

Cachelagring frekvens i Tableau

Tableau har administrativa inställningar för cachelagring mer eller mindre ofta. Om servern är inställd på Uppdatera mindre ofta behåller Tableau data i cacheminnet i upp till 12 timmar. Om den är inställd på Uppdatera oftare går Tableau tillbaka till data vid varje siduppdatering.

Kunder som har samma instrumentpanel som används igen, till exempel "Pipelinerapporter på måndag morgon", bör vara på en server inställd på Uppdatera mindre ofta så att instrumentpanelerna alla använder samma cache.

Cacheuppvärmning i Tableau

I Tableau kan du värma cachen genom att ange en prenumeration för instrumentpanelen som ska skickas innan du vill att instrumentpanelen ska visas. Det beror på att instrumentpanelen måste återges för att generera avbildningen för prenumerationens e-post. Se Uppvärmning av Tableau Server Cache using subscriptions (Uppvärmning av Tableau Server Cache med prenumerationer).

Tableau Desktop: Felet The drivers... are not properly installed visas

Problem: När du försöker ansluta Tableau Desktop till Databricks visar Tableau ett felmeddelande i anslutningsdialogrutan med en länk till drivrutinsnedladdningssidan, där du hittar drivrutinslänkar och installationsinstruktioner.

Orsak: Installationen av Tableau Desktop kör inte en drivrutin som stöds.

Lösning: Ladda ned Databricks ODBC-drivrutinsversion 2.6.15 eller senare.

Se även: Fel "Drivrutinerna... är inte korrekt installerade" på Tableau-webbplatsen.

Ytterligare resurser