Połączenie Tableau do usługi Azure Databricks

W tym artykule pokazano, jak połączyć usługę Azure Databricks z aplikacją Tableau Desktop i zawiera informacje o innych wersjach usługi Tableau. Możesz nawiązać połączenie za pośrednictwem Połączenie partnera lub połączyć się ręcznie.

Gdy używasz usługi Azure Databricks jako źródła danych z usługą Tableau, możesz zapewnić zaawansowaną interaktywną analizę, przenosząc wkład analityków danych i inżynierów danych do analityków biznesowych przez skalowanie do ogromnych zestawów danych.

Aby dowiedzieć się więcej na temat korzystania z programu Tableau Desktop do tworzenia raportów i wizualizacji, przeczytaj Samouczek: rozpoczynanie pracy z aplikacją Tableau Desktop.

Wymagania

Połączenie do programu Tableau Desktop przy użyciu Połączenie partnerów

Za pomocą Połączenie partnerów możesz połączyć klaster lub usługę SQL Warehouse z aplikacją Tableau Desktop za pomocą kilku kliknięć.

  1. Upewnij się, że twoje konto, obszar roboczy i zalogowany użytkownik usługi Azure Databricks spełniają wymagania dotyczące Połączenie partnerów.
  2. Na pasku bocznym kliknij pozycję Przycisk Połączenie partneraPartner Połączenie.
  3. Kliknij kafelek Tableau.
  4. W oknie dialogowym Połączenie partnera w polu Obliczenia wybierz nazwę zasobu obliczeniowego usługi Azure Databricks, który chcesz połączyć.
  5. Wybierz pozycję Pobierz plik połączenia.
  6. Otwórz pobrany plik połączenia, który uruchamia program Tableau Desktop.
  7. W aplikacji Tableau Desktop wprowadź poświadczenia uwierzytelniania, a następnie kliknij pozycję Zaloguj:
    • Aby użyć tokenu identyfikatora entra firmy Microsoft, wprowadź token nazwy użytkownika i tokenu identyfikatora entra firmy Microsoft dla hasła.
    • Aby użyć osobistego tokenu dostępu usługi Azure Databricks, wprowadź token nazwy użytkownika i osobistego tokenu dostępu dla hasła.
    • Aby użyć poświadczeń identyfikatora entra firmy Microsoft, kliknij pozycję Edytuj Połączenie ion, kliknij dwukrotnie bazę danych na karcie Dane, a następnie wybierz pozycję Microsoft Entra ID na liście Uwierzytelnianie.
      • W przypadku programu Tableau Desktop 2021.1 lub nowszego:

        1. Jeśli nie używasz konta gościa B2B usługi Microsoft Entra ID (dawniej Azure Active Directory) lub usługi Azure Databricks na platformie Azure Government, możesz po prostu wprowadzić https://login.microsoftonline.com/common jako punkt końcowy OAuth.

        Uwierzytelnianie konfiguracji

        1. Jeśli używasz konta gościa B2B firmy Microsoft lub usługi Azure Databricks na platformie Azure Government, skontaktuj się z administratorem, aby uzyskać dedykowany magazyn microsoft Entra ID.

        Uwaga

        Jeśli nie jesteś administratorem, zostanie wyświetlony błąd Wymagaj zatwierdzenia przez administratora. Poproś administratora globalnego, administratora aplikacji w chmurze lub administratora aplikacji o udzielenie uprawnień do nawiązania połączenia z usługą Tableau, a następnie spróbuj zalogować się ponownie.

        Jeśli twoje konto Microsoft Entra ID ma włączony przepływ pracy zgody administratora, tableau Desktop monituje o żądanie dostępu do tableau. Gdy administrator globalny, administrator aplikacji w chmurze lub administrator aplikacji zatwierdzi żądanie, spróbuj zalogować się ponownie.

Po pomyślnym nawiązaniu połączenia z aplikacją Tableau Desktop możesz zatrzymać się tutaj. Pozostałe informacje w tym artykule obejmują dodatkowe informacje o tableau, takie jak ręczne nawiązywanie połączenia z programem Tableau Desktop, konfigurowanie serwera Tableau w systemie Linux, sposób korzystania z usługi Tableau Online oraz najlepsze rozwiązania i rozwiązywanie problemów z usługą Tableau.

ręczne Połączenie do programu Tableau Desktop

Postępuj zgodnie z tymi instrukcjami, aby nawiązać połączenie z klastrem lub usługą SQL Warehouse przy użyciu programu Tableau Desktop.

Uwaga

Aby szybciej nawiązać połączenie z aplikacją Tableau Desktop, użyj Połączenie partnera.

  1. Uruchom program Tableau Desktop.

  2. Kliknij pozycję Plik > nowy.

  3. Na karcie Dane kliknij pozycję Połączenie do pozycji Dane.

  4. Na liście łączników kliknij pozycję Databricks.

  5. Wprowadź nazwę hosta serwera i ścieżkę HTTP.

  6. W obszarze Uwierzytelnianie wybierz metodę uwierzytelniania, wprowadź poświadczenia uwierzytelniania, a następnie kliknij pozycję Zaloguj.

    • Aby użyć tokenu identyfikatora entra firmy Microsoft, wybierz pozycję Osobisty token dostępu i wprowadź token identyfikatora entra firmy Microsoft dla pozycji Hasło.

    • Aby użyć osobistego tokenu dostępu usługi Azure Databricks, wybierz pozycję Osobisty token dostępu i wprowadź osobisty token dostępu w polu Hasło.

    • Aby użyć poświadczeń identyfikatora Entra firmy Microsoft, wybierz pozycję Microsoft Entra ID.

      W przypadku programu Tableau Desktop 2021.1 lub nowszego:

      • Jeśli nie używasz konta gościa B2B usługi Microsoft Entra ID (dawniej Azure Active Directory) lub usługi Azure Databricks na platformie Azure Government, możesz po prostu wprowadzić https://login.microsoftonline.com/common jako punkt końcowy OAuth.

        Uwierzytelnianie konfiguracji

        • Jeśli używasz konta gościa B2B firmy Microsoft lub usługi Azure Databricks na platformie Azure Government, skontaktuj się z administratorem, aby uzyskać dedykowany magazyn microsoft Entra ID.

      Uwaga

      Jeśli nie jesteś administratorem, zostanie wyświetlony błąd Wymagaj zatwierdzenia przez administratora. Poproś administratora globalnego, administratora aplikacji w chmurze lub administratora aplikacji o udzielenie uprawnień do nawiązania połączenia z usługą Tableau, a następnie spróbuj zalogować się ponownie.

      Jeśli twoje konto Microsoft Entra ID ma włączony przepływ pracy zgody administratora, tableau Desktop monituje o żądanie dostępu do tableau. Gdy administrator globalny, administrator aplikacji w chmurze lub administrator aplikacji zatwierdzi żądanie, spróbuj zalogować się ponownie.

    Jeśli wykaz aparatu Unity jest włączony dla obszaru roboczego, dodatkowo ustaw katalog domyślny. Na karcie Zaawansowane dla właściwości Połączenie ion dodaj wartość Catalog=<catalog-name>. Aby zmienić katalog domyślny, na karcie Initial SQL (Początkowa baza danych SQL) wprowadź .USE CATALOG <catalog-name>

Po pomyślnym nawiązaniu połączenia z aplikacją Tableau Desktop możesz zatrzymać się tutaj. Pozostałe informacje w tym artykule obejmują dodatkowe informacje dotyczące usługi Tableau, takie jak konfigurowanie serwera Tableau w systemie Linux, sposób korzystania z usługi Tableau Online oraz najlepsze rozwiązania i rozwiązywanie problemów z usługą Tableau.

Tableau Server w systemie Linux

Edytuj /etc/odbcinst.ini , aby uwzględnić następujące elementy:

[Simba Spark ODBC Driver 64-bit]
Description=Simba Spark ODBC Driver (64-bit)
Driver=/opt/simba/spark/lib/64/libsparkodbc_sb64.so

Uwaga

Serwer Tableau w systemie Linux zaleca architekturę przetwarzania 64-bitowego.

Publikowanie i odświeżanie skoroszytu w usłudze Tableau Online

W tym artykule pokazano, jak opublikować skoroszyt z programu Tableau Desktop w usłudze Tableau Online i aktualizować go po zmianie źródła danych. Potrzebujesz skoroszytu w programie Tableau Desktop i koncie usługi Tableau Online.

  1. Wyodrębnij dane skoroszytu z programu Tableau Desktop: w programie Tableau Desktop ze skoroszytem, który chcesz opublikować, kliknij pozycję Wyodrębnij dane<data-source-name>>>.
  2. W oknie dialogowym Wyodrębnianie danych kliknij pozycję Wyodrębnij.
  3. Przejdź do lokalizacji na komputerze lokalnym, w którym chcesz zapisać wyodrębnione dane, a następnie kliknij przycisk Zapisz.
  4. Opublikuj źródło danych skoroszytu w usłudze Tableau Online: w programie Tableau Desktop kliknij pozycję Serwer > Publikuj źródło ><data-source-name>danych.
  5. Jeśli zostanie wyświetlone okno dialogowe Logowanie do serwera Tableau, kliknij link Tableau Online i postępuj zgodnie z instrukcjami wyświetlanymi na ekranie, aby zalogować się do usługi Tableau Online .
  6. W oknie dialogowym Publikowanie źródła danych w usłudze Tableau Online obok pozycji Odśwież nie włączono kliknij link Edytuj.
  7. W wyświetlonym oknie wysuwaym w polu Uwierzytelnianie zmień ustawienie Odświeżanie nie jest włączone na Zezwalaj na dostęp do odświeżania.
  8. Kliknij dowolne miejsce poza tym menu wysuwanego, aby go ukryć.
  9. Wybierz pozycję Aktualizuj skoroszyt, aby użyć opublikowanego źródła danych.
  10. Kliknij przycisk Publikuj. Źródło danych jest wyświetlane w usłudze Tableau Online.
  11. W usłudze Tableau Online w oknie dialogowym Ukończenie publikowania kliknij pozycję Harmonogram i postępuj zgodnie z instrukcjami wyświetlanymi na ekranie.
  12. Opublikuj skoroszyt w usłudze Tableau Online: w programie Tableau Desktop ze skoroszytem, który chcesz opublikować, kliknij pozycję Skoroszyt publikowania serwera>.
  13. W oknie dialogowym Publikowanie skoroszytu w usłudze Tableau Online kliknij przycisk Publikuj. Skoroszyt jest wyświetlany w usłudze Tableau Online.

Usługa Tableau Online sprawdza zmiany w źródle danych zgodnie z ustawionym harmonogramem i aktualizuje opublikowany skoroszyt w przypadku wykrycia zmian.

Aby uzyskać więcej informacji, zobacz następujące informacje w witrynie internetowej tableau:

Najlepsze praktyki i rozwiązywanie problemów

Dwie podstawowe akcje optymalizacji zapytań Tableau to:

  • Zmniejsz liczbę rekordów, których dotyczy zapytanie i wizualizuj na jednym wykresie lub pulpicie nawigacyjnym.
  • Zmniejsz liczbę zapytań wysyłanych przez tabelę Tableau na jednym wykresie lub pulpicie nawigacyjnym.

Podjęcie decyzji, która próba najpierw zależy od pulpitu nawigacyjnego. Jeśli masz wiele różnych wykresów dla poszczególnych użytkowników na tym samym pulpicie nawigacyjnym, prawdopodobnie usługa Tableau wysyła zbyt wiele zapytań do usługi Azure Databricks. Jeśli masz tylko kilka wykresów, ale ładowanie trwa długo, prawdopodobnie istnieje zbyt wiele rekordów zwracanych przez usługę Azure Databricks w celu efektywnego ładowania.

Rejestrowanie wydajności tableau, dostępne zarówno na tableau Desktop, jak i Tableau Server, może pomóc zrozumieć, gdzie wąskie gardła wydajności są, identyfikując procesy, które powodują opóźnienie podczas uruchamiania określonego przepływu pracy lub pulpitu nawigacyjnego.

Włączanie rejestrowania wydajności w celu debugowania dowolnego problemu z tabelą

Jeśli na przykład wykonanie zapytania jest problemem, wiesz, że ma to związek z procesem aparatu danych lub źródłem danych, którego wykonujesz zapytanie. Jeśli układ wizualizacji działa powoli, wiesz, że jest to VizQL.

Jeśli nagranie wydajności informuje, że opóźnienie jest wykonywane w zapytaniu, prawdopodobnie zbyt dużo czasu zajmuje usługa Azure Databricks zwracająca wyniki lub przez nakładkę ODBC/Połączenie or przetwarzającą dane do języka SQL dla biblioteki VizQL. W takim przypadku należy przeanalizować, co zwracasz i podjąć próbę zmiany wzorca analitycznego, aby mieć pulpit nawigacyjny dla grupy, segmentu lub artykułu, zamiast próbować zapchać wszystko do jednego pulpitu nawigacyjnego i polegać na szybkich filtrach.

Jeśli niska wydajność jest spowodowana sortowaniem lub układem wizualnym, problem może być liczbą oznaczeń, które pulpit nawigacyjny próbuje zwrócić. Usługa Azure Databricks może szybko zwrócić milion rekordów, ale usługa Tableau może nie być w stanie obliczyć układu i posortować wyników. Jeśli jest to problem, zagreguj zapytanie i przejdź do szczegółów niższych poziomów. Możesz również wypróbować większą maszynę, ponieważ usługa Tableau jest ograniczona tylko przez zasoby fizyczne na maszynie, na której jest uruchomiona.

Aby zapoznać się ze szczegółowym samouczkiem dotyczącym rejestratora wydajności, zobacz Tworzenie nagrywania wydajności.

Wydajność na serwerze Tableau a Tableau Desktop

Ogólnie rzecz biorąc, przepływ pracy uruchamiany na tableau Desktop nie jest szybszy na serwerze Tableau. Pulpit nawigacyjny, który nie jest wykonywany na tableau Desktop, nie będzie wykonywany na serwerze Tableau. Ważne jest, aby pamiętać o tym.

W rzeczywistości uzyskanie pracy nad pulpitem jest znacznie lepszą techniką rozwiązywania problemów, ponieważ serwer Tableau ma więcej procesów do rozważenia podczas rozwiązywania problemów. A jeśli elementy działają w tableau Desktop, ale nie w tableau Server, można bezpiecznie zawęzić problem do procesów w tableau Server, które nie są w tableau Desktop.

Konfigurowanie

Domyślnie parametry z adresu URL połączenia zastępują te w nazwie DSN ODBC Simba. Istnieją dwa sposoby dostosowywania konfiguracji ODBC z tabeli Tableau:

  • .tds plik pojedynczego źródła danych:

    1. Postępuj zgodnie z instrukcjami w artykule Zapisywanie źródeł danych, aby wyeksportować .tds plik dla źródła danych.
    2. Znajdź wiersz odbc-connect-string-extras='' właściwości w .tds pliku i ustaw parametry. Aby na przykład włączyć AutoReconnect i UseNativeQuery, możesz zmienić wiersz na odbc-connect-string-extras='AutoReconnect=1,UseNativeQuery=1'.
    3. Załaduj .tds ponownie plik, ponownie łącząc połączenie.

    Zasób obliczeniowy jest zoptymalizowany pod kątem użycia mniejszej ilości pamięci sterty do zbierania dużych wyników, dzięki czemu może obsłużyć więcej wierszy na blok pobierania niż domyślny odBC Simba. Dołącz RowsFetchedPerBlock=100000' do wartości odbc-connect-string-extras właściwości .

  • .tdc plik dla wszystkich źródeł danych:

    1. Jeśli nigdy nie utworzono .tdc pliku, możesz dodać plik TableauTdcExample.tdc do folderu Document/My Tableau Repository/Datasources.
    2. Dodaj plik do wszystkich instalacji programu Tableau Desktop deweloperów, aby działał, gdy pulpity nawigacyjne są udostępniane.

Optymalizowanie wykresów (arkuszy)

Istnieje wiele optymalizacji taktycznych wykresów, które mogą pomóc zwiększyć wydajność arkuszy Tableau.

W przypadku filtrów, które nie zmieniają się często i nie mają być wchodzić w interakcje, użyj filtrów kontekstowych, które przyspieszają czas wykonywania. Kolejną dobrą regułą jest użycie if/else instrukcji zamiast instrukcji case/when w zapytaniach.

Usługa Tableau może wypychać filtry do źródeł danych, co może znacznie przyspieszyć szybkość zapytań. Zobacz Filtrowanie w wielu źródłach danych przy użyciu parametru i filtrowania danych w wielu źródłach danych, aby uzyskać więcej informacji na temat filtrów wypychania źródła danych.

Najlepiej unikać obliczeń tabeli, jeśli możesz, ponieważ muszą skanować pełny zestaw danych. Aby uzyskać więcej informacji na temat obliczeń tabeli, zobacz Przekształcanie wartości za pomocą obliczeń tabeli.

Optymalizowanie pulpitów nawigacyjnych

Poniżej przedstawiono kilka wskazówek i ćwiczeń dotyczących rozwiązywania problemów, które można zastosować, aby poprawić wydajność pulpitu nawigacyjnego usługi Tableau.

Typowym źródłem problemów z pulpitami nawigacyjnymi tableau połączonymi z usługą Azure Databricks jest użycie szybkich filtrów na poszczególnych pulpitach nawigacyjnych, które obsługują wielu różnych użytkowników, funkcje lub segmenty. Globalne szybkie filtry można dołączać do wszystkich wykresów na pulpicie nawigacyjnym. Jest to świetna funkcja, ale taka, która może szybko powodować problemy. Jeden globalny szybki filtr na pulpicie nawigacyjnym z pięcioma wykresami powoduje wysłanie co najmniej 10 zapytań do usługi Azure Databricks. Może to spowodować zwiększenie liczby w miarę dodawania większej liczby filtrów i może powodować duże problemy z wydajnością, ponieważ platforma Spark nie jest zbudowana w celu obsługi wielu współbieżnych zapytań rozpoczynających się dokładnie w tym samym momencie. Staje się to bardziej problematyczne, gdy używany klaster usługi Azure Databricks lub usługa SQL Warehouse nie jest wystarczająco duża, aby obsłużyć dużą liczbę zapytań.

W pierwszym kroku zalecamy użycie rejestrowania wydajności tableau, aby rozwiązać problem, co może być przyczyną problemu.

Jeśli niska wydajność jest spowodowana sortowaniem lub układem wizualnym, problem może być liczbą oznaczeń, które pulpit nawigacyjny próbuje zwrócić. Usługa Azure Databricks może szybko zwrócić milion rekordów, ale usługa Tableau może nie być w stanie obliczyć układu i posortować wyników. Jeśli jest to problem, zagreguj zapytanie i przejdź do szczegółów niższych poziomów. Możesz również wypróbować większą maszynę, ponieważ usługa Tableau jest ograniczona tylko przez zasoby fizyczne na maszynie, na której jest uruchomiona.

Aby uzyskać informacje na temat przechodzenia do szczegółów w usłudze Tableau, zobacz Przechodzenie do szczegółów.

Ogólnie rzecz biorąc, wyświetlanie wielu szczegółowych znaków jest często złym wzorcem analitycznym, ponieważ nie zapewnia szczegółowych informacji. Przechodzenie do szczegółów z wyższych poziomów agregacji ma większe znaczenie i zmniejsza liczbę rekordów, które należy przetworzyć i zwizualizować.

Używanie akcji do optymalizowania pulpitów nawigacyjnych

Aby przejść do szczegółów z grupy do segmentu do artykułu w celu uzyskania tej samej analizy i informacji co pulpit nawigacyjny "ocean gotowany", możesz użyć akcji Tableau. Akcje umożliwiają kliknięcie znacznika (na przykład stanu na mapie) i wysłanie ich do innego pulpitu nawigacyjnego, który filtruje na podstawie klikanego stanu. Zmniejsza to konieczność posiadania wielu filtrów na jednym pulpicie nawigacyjnym i zmniejsza liczbę rekordów, które należy wygenerować, ponieważ można ustawić akcję, aby nie generować rekordów, dopóki nie uzyska predykatu do filtrowania.

Aby uzyskać więcej informacji, zobacz Akcje i 6 Wskazówki, aby uczynić pulpity nawigacyjne bardziej wydajnymi.

Buforowanie

Buforowanie danych to dobry sposób na poprawę wydajności arkuszy lub pulpitów nawigacyjnych.

Buforowanie w tableau

Usługa Tableau ma cztery warstwy buforowania przed powrotem do danych, niezależnie od tego, czy dane są w połączeniu na żywo, czy wyodrębnione:

  • Kafelki: jeśli ktoś ładuje dokładnie ten sam pulpit nawigacyjny i nic się nie zmienia, tableau próbuje ponownie użyć tych samych kafelków dla wykresów. Jest to podobne do kafelków google Mapy.
  • Model: istnieją obliczenia matematyczne używane do generowania wizualizacji w przypadku, gdy kafelki nie mogą być używane. Serwer Tableau próbuje użyć tych samych modeli.
  • Abstrakcja: Agregowane wyniki zapytań są również przechowywane. Jest to trzeci poziom "obrony". Jeśli zapytanie zwraca wartość Sum(Sales), Count(orders), Sum(Cost), w poprzednim zapytaniu i przyszłe zapytanie chce tylko Sum(Sales), funkcja Tableau pobiera ten wynik i używa go.
  • Natywna pamięć podręczna: jeśli zapytanie jest dokładnie takie samo jak inne, tableau używa tych samych wyników. Jest to ostatni poziom buforowania. Jeśli to się nie powiedzie, usługa Tableau przejdzie do danych.

częstotliwość Buforowanie w tableau

Usługa Tableau ma ustawienia administracyjne buforowania rzadziej lub rzadziej. Jeśli serwer ma wartość Odśwież mniej często, tableau przechowuje dane w pamięci podręcznej przez maksymalnie 12 godzin. Jeśli ustawiono opcję Odśwież częściej, funkcja Tableau wraca do danych podczas każdego odświeżania strony.

Klienci, którzy mają ten sam pulpit nawigacyjny używany ponownie — na przykład "Raporty potoku poniedziałek rano" — powinny znajdować się na serwerze ustawionym na wartość Odśwież mniej często, aby wszystkie pulpity nawigacyjne używały tej samej pamięci podręcznej.

Ocieplenie pamięci podręcznej w tableau

W usłudze Tableau możesz rozgrzać pamięć podręczną, ustawiając subskrypcję pulpitu nawigacyjnego do wysłania przed wyświetleniem pulpitu nawigacyjnego. Jest to spowodowane tym, że pulpit nawigacyjny musi być renderowany w celu wygenerowania obrazu dla wiadomości e-mail subskrypcji. Zobacz Ocieplenie pamięci podręcznej serwera Tableau przy użyciu subskrypcji.

Tableau Desktop: wyświetlany jest błąd The drivers... are not properly installed

Problem: Podczas próby nawiązania połączenia z usługą Tableau Desktop z usługą Databricks w oknie dialogowym połączenia zostanie wyświetlony komunikat o błędzie z linkiem do strony pobierania sterownika, na której można znaleźć linki sterowników i instrukcje instalacji.

Przyczyna: Instalacja programu Tableau Desktop nie uruchamia obsługiwanego sterownika.

Rozwiązanie: pobierz sterownik ODBC usługi Databricks w wersji 2.6.15 lub nowszej.

Zobacz również: Błąd "Sterowniki... nie są prawidłowo zainstalowane" w witrynie internetowej Tableau.

Dodatkowe zasoby