Partilhar via


Conectar o Tableau ao Azure Databricks

Este artigo mostra como conectar o Azure Databricks ao Tableau Desktop e inclui informações sobre outras edições do Tableau. Você pode se conectar através do Partner Connect ou pode se conectar manualmente.

Ao usar o Azure Databricks como uma fonte de dados com o Tableau, você pode fornecer análises interativas poderosas, trazendo as contribuições de seus cientistas de dados e engenheiros de dados para seus analistas de negócios dimensionando para conjuntos de dados massivos.

Para saber mais sobre como usar o Tableau Desktop para criar relatórios e visualizações, leia Tutorial: Introdução ao Tableau Desktop.

Requisitos

Conectar-se ao Tableau Desktop usando o Partner Connect

Você pode usar o Partner Connect para conectar um cluster ou um SQL warehouse ao Tableau Desktop com apenas alguns cliques.

  1. Verifique se sua conta do Azure Databricks, o espaço de trabalho e o usuário conectado atendem aos requisitos do Partner Connect.
  2. Na barra lateral, clique em Botão Partner Connect Partner Connect.
  3. Clique no bloco Tableau .
  4. Na caixa de diálogo Conectar ao parceiro, para Computação, escolha o nome do recurso de computação do Azure Databricks que você deseja conectar.
  5. Escolha Baixar arquivo de conexão.
  6. Abra o arquivo de conexão baixado, que inicia o Tableau Desktop.
  7. No Tableau Desktop, insira suas credenciais de autenticação e clique em Entrar:
    • Para usar um token de ID do Microsoft Entra, insira o token para Nome de usuário e seu token de ID do Microsoft Entra para Senha.
    • Para usar um token de acesso pessoal do Azure Databricks, insira o token para Nome de usuário e seu token de acesso pessoal para Senha.
    • Para usar suas credenciais do Microsoft Entra ID, clique em Editar Conexão, clique duas vezes no banco de dados na guia Dados e selecione ID do Microsoft Entra na lista Autenticação.
      • Para o Tableau Desktop 2021.1 e superior:

        1. Se você não usar uma conta de convidado B2B do Microsoft Entra ID (anteriormente Azure Ative Directory) ou Azure Databricks no Azure Government, basta inserir https://login.microsoftonline.com/common como o ponto de extremidade OAuth.

        Autenticação de configuração

        1. Se você usar uma conta de convidado B2B do Microsoft Entra ID ou o Azure Databricks no Azure Government, entre em contato com o administrador para obter um depósito dedicado do Microsoft Entra ID.

        Nota

        Se você não for um administrador, será exibido um erro Precisa de aprovação de administrador. Peça a um administrador global, administrador de aplicativos na nuvem ou administrador de aplicativos para conceder permissões para se conectar ao Tableau e tente entrar novamente.

        Se sua conta do Microsoft Entra ID tiver o fluxo de trabalho de consentimento de administrador habilitado, o Tableau Desktop solicitará que você solicite acesso ao Tableau. Depois que um administrador global, administrador de aplicativo na nuvem ou administrador de aplicativo aprovar a solicitação, tente entrar novamente.

Depois de se conectar com êxito ao Tableau Desktop, você pode parar por aqui. As informações restantes neste artigo abrangem informações adicionais sobre o Tableau, como conectar-se manualmente ao Tableau Desktop, configurar o Tableau Server no Linux, como usar o Tableau Online e práticas recomendadas e solução de problemas com o Tableau.

Conectar-se manualmente ao Tableau Desktop

Siga estas instruções para se conectar a um cluster ou SQL warehouse com o Tableau Desktop.

Nota

Para se conectar mais rapidamente ao Tableau Desktop, use o Partner Connect.

  1. Inicie o Tableau Desktop.

  2. Clique em Arquivo > novo.

  3. Na guia Dados, clique em Conectar a Dados.

  4. Na lista de conectores, clique em Databricks.

  5. Insira o nome do host do servidor e o caminho HTTP.

  6. Em Autenticação, escolha seu método de autenticação, insira suas credenciais de autenticação e clique em Entrar.

    • Para usar um token de ID do Microsoft Entra, selecione Token de Acesso Pessoal e insira seu token de ID do Microsoft Entra para Senha.

    • Para usar um token de acesso pessoal do Azure Databricks, selecione Token de Acesso Pessoal e insira seu token de acesso pessoal para Senha.

    • Para usar suas credenciais do Microsoft Entra ID, selecione Microsoft Entra ID.

      Para o Tableau Desktop 2021.1 e superior:

      • Se você não usar uma conta de convidado B2B do Microsoft Entra ID (anteriormente Azure Ative Directory) ou Azure Databricks no Azure Government, basta inserir https://login.microsoftonline.com/common como o ponto de extremidade OAuth.

        Autenticação de configuração

        • Se você usar uma conta de convidado B2B do Microsoft Entra ID ou o Azure Databricks no Azure Government, entre em contato com o administrador para obter um depósito dedicado do Microsoft Entra ID.

      Nota

      Se você não for um administrador, será exibido um erro Precisa de aprovação de administrador. Peça a um administrador global, administrador de aplicativos na nuvem ou administrador de aplicativos para conceder permissões para se conectar ao Tableau e tente entrar novamente.

      Se sua conta do Microsoft Entra ID tiver o fluxo de trabalho de consentimento de administrador habilitado, o Tableau Desktop solicitará que você solicite acesso ao Tableau. Depois que um administrador global, administrador de aplicativo na nuvem ou administrador de aplicativo aprovar a solicitação, tente entrar novamente.

    Se o Unity Catalog estiver habilitado para seu espaço de trabalho, defina adicionalmente o catálogo padrão. Na guia Avançado, para Propriedades da conexão, adicione Catalog=<catalog-name>. Para alterar o catálogo padrão, na guia SQL inicial, digite USE CATALOG <catalog-name>.

Depois de se conectar com êxito ao Tableau Desktop, você pode parar por aqui. As informações restantes neste artigo abrangem informações adicionais sobre o Tableau, como a configuração do Tableau Server no Linux, como usar o Tableau Online e práticas recomendadas e solução de problemas com o Tableau.

Tableau Server no Linux

Edite /etc/odbcinst.ini para incluir o seguinte:

[Simba Spark ODBC Driver 64-bit]
Description=Simba Spark ODBC Driver (64-bit)
Driver=/opt/simba/spark/lib/64/libsparkodbc_sb64.so

Nota

O Tableau Server no Linux recomenda a arquitetura de processamento de 64 bits.

Publicar e atualizar uma pasta de trabalho no Tableau Online

Este artigo mostra como publicar uma pasta de trabalho do Tableau Desktop no Tableau Online e mantê-la atualizada quando a fonte de dados for alterada. Você precisa de uma pasta de trabalho no Tableau Desktop e uma conta do Tableau Online .

  1. Extraia os dados da pasta de trabalho do Tableau Desktop: no Tableau Desktop, com a pasta de trabalho que você deseja publicar exibida, clique em <data-source-name> >> Dados de extração de dados.
  2. Na caixa de diálogo Extrair Dados , clique em Extrair.
  3. Navegue até um local na máquina local onde deseja salvar os dados extraídos e clique em Salvar.
  4. Publique a fonte de dados da pasta de trabalho no Tableau Online: no Tableau Desktop, clique em Fonte de dados > <data-source-name>de publicação do servidor .>
  5. Se a caixa de diálogo Entrar no Tableau Server for exibida, clique no link Tableau Online e siga as instruções na tela para fazer login no Tableau Online.
  6. Na caixa de diálogo Publicar fonte de dados no Tableau Online, ao lado de Atualizar não habilitado, clique no link Editar.
  7. Na caixa suspensa exibida, para Autenticação, altere Atualizar não habilitado para Permitir acesso à atualização.
  8. Clique em qualquer lugar fora deste submenu para ocultá-lo.
  9. Selecione Atualizar pasta de trabalho para usar a fonte de dados publicada.
  10. Clique em Publicar. A fonte de dados é exibida no Tableau Online.
  11. No Tableau Online, na caixa de diálogo Publicação concluída , clique em Agendar e siga as instruções na tela.
  12. Publicar a pasta de trabalho no Tableau Online: no Tableau Desktop, com a pasta de trabalho que você deseja publicar exibida, clique em Publicar pasta de trabalho do servidor>.
  13. Na caixa de diálogo Publicar pasta de trabalho no Tableau Online, clique em Publicar. A pasta de trabalho é exibida no Tableau Online.

O Tableau Online verifica se há alterações na fonte de dados de acordo com a agenda definida e atualiza a pasta de trabalho publicada se forem detetadas alterações.

Para obter mais informações, consulte o seguinte no site do Tableau:

Melhores práticas e resolução de problemas

As duas ações fundamentais para otimizar as consultas do Tableau são:

  • Reduza o número de registros que estão sendo consultados e visualizados em um único gráfico ou painel.
  • Reduza o número de consultas enviadas pelo Tableau em um único gráfico ou painel.

Decidir qual tentar primeiro depende do seu painel. Se você tiver vários gráficos diferentes para usuários individuais, todos no mesmo painel, é provável que o Tableau esteja enviando muitas consultas para o Azure Databricks. Se você tiver apenas alguns gráficos, mas eles levarem muito tempo para carregar, provavelmente há muitos registros sendo retornados pelo Azure Databricks para serem carregados de forma eficaz.

A gravação de desempenho do Tableau, disponível no Tableau Desktop e no Tableau Server, pode ajudá-lo a entender onde estão os gargalos de desempenho, identificando processos que estão causando latência quando você executa um determinado fluxo de trabalho ou painel.

Habilite a gravação de desempenho para depurar qualquer problema do Tableau

Por exemplo, se a execução da consulta for o problema, você sabe que tem a ver com o processo do mecanismo de dados ou com a fonte de dados que está consultando. Se o layout visual estiver funcionando lentamente, você sabe que é o VizQL.

Se a gravação de desempenho disser que a latência está na execução da consulta, é provável que muito tempo seja levado pelo Azure Databricks retornando os resultados ou pela sobreposição ODBC/Connector processando os dados em SQL para VizQL. Quando isso ocorre, você deve analisar o que está retornando e tentar alterar o padrão analítico para ter um painel por grupo, segmento ou artigo, em vez de tentar agrupar tudo em um painel e confiar em Filtros Rápidos.

Se o mau desempenho for causado pela classificação ou layout visual, o problema pode ser o número de marcas que o painel está tentando retornar. O Azure Databricks pode retornar um milhão de registros rapidamente, mas o Tableau pode não ser capaz de calcular o layout e classificar os resultados. Se isso for um problema, agregue a consulta e analise detalhadamente os níveis inferiores. Você também pode tentar uma máquina maior, já que o Tableau só é limitado por recursos físicos na máquina em que está sendo executado.

Para obter um tutorial detalhado sobre o gravador de desempenho, consulte Criar uma gravação de desempenho.

Desempenho no Tableau Server versus Tableau Desktop

Em geral, um fluxo de trabalho executado no Tableau Desktop não é mais rápido no Tableau Server. Um painel que não é executado no Tableau Desktop não é executado no Tableau Server. Isto é importante ter em mente.

Na verdade, fazer as coisas funcionarem no Desktop é uma técnica de solução de problemas muito melhor, porque o Tableau Server tem mais processos a considerar quando você soluciona problemas. E se as coisas funcionarem no Tableau Desktop, mas não no Tableau Server, você poderá restringir o problema com segurança aos processos no Tableau Server que não estão no Tableau Desktop.

Configuração

Por padrão, os parâmetros da URL de conexão substituem aqueles no DSN ODBC do Simba. Há duas maneiras de personalizar as configurações ODBC do Tableau:

  • .tds para uma única fonte de dados:

    1. Siga as instruções em Salvar fontes de dados para exportar o .tds arquivo para a fonte de dados.
    2. Encontre a linha odbc-connect-string-extras='' de .tds propriedade no arquivo e defina os parâmetros. Por exemplo, para habilitar AutoReconnect e UseNativeQuery, você pode alterar a linha para odbc-connect-string-extras='AutoReconnect=1,UseNativeQuery=1'.
    3. Recarregue o .tds arquivo reconectando a conexão.

    O recurso de computação é otimizado para usar menos memória de pilha para coletar grandes resultados, para que possa servir mais linhas por bloco de busca do que o padrão do Simba ODBC. Anexe RowsFetchedPerBlock=100000' ao valor da odbc-connect-string-extras propriedade.

  • .tdc para todas as fontes de dados:

    1. Se você nunca criou um .tdc arquivo, pode adicionar TableauTdcExample.tdc à pasta Document/My Tableau Repository/Datasources.
    2. Adicione o arquivo às instalações do Tableau Desktop de todos os desenvolvedores para que ele funcione quando os painéis forem compartilhados.

Otimizar gráficos (planilhas)

Há várias otimizações de gráficos táticos que podem ajudá-lo a melhorar o desempenho de suas planilhas do Tableau.

Para filtros que não mudam com frequência e não devem ser interagidos, use filtros de contexto, que aceleram o tempo de execução. Outra boa regra prática é usar if/else instruções em vez de case/when instruções em suas consultas.

O Tableau pode transferir filtros para fontes de dados, o que pode acelerar muito a velocidade das consultas. Consulte Filtragem em várias fontes de dados usando um parâmetro e Filtrar dados em várias fontes de dados para obter mais informações sobre filtros push down de fonte de dados.

É melhor evitar cálculos de tabela, se possível, porque eles precisam verificar o conjunto de dados completo. Para obter mais informações sobre cálculos de tabela, consulte Transformar valores com cálculos de tabela.

Otimizar painéis

Veja a seguir várias dicas e exercícios de solução de problemas que você pode aplicar para melhorar o desempenho do painel do Tableau.

Uma fonte comum de problemas com painéis do Tableau conectados ao Azure Databricks é o uso de filtros rápidos em painéis individuais que atendem a vários usuários, funções ou segmentos diferentes. Você pode anexar filtros rápidos globais a todos os gráficos no painel. É um ótimo recurso, mas que pode causar problemas rapidamente. Um filtro rápido global em um painel com cinco gráficos faz com que um mínimo de 10 consultas sejam enviadas ao Azure Databricks. Isso pode aumentar para números maiores à medida que mais filtros são adicionados e pode causar enormes problemas de desempenho, porque o Spark não foi criado para lidar com muitas consultas simultâneas começando no mesmo momento exato. Isso se torna mais problemático quando o cluster do Azure Databricks ou o SQL warehouse que você está usando não é grande o suficiente para lidar com o alto volume de consultas.

Como primeiro passo, recomendamos que você use a gravação de desempenho do Tableau para solucionar o que pode estar causando o problema.

Se o mau desempenho for causado pela classificação ou layout visual, o problema pode ser o número de marcas que o painel está tentando retornar. O Azure Databricks pode retornar um milhão de registros rapidamente, mas o Tableau pode não ser capaz de calcular o layout e classificar os resultados. Se isso for um problema, agregue a consulta e analise detalhadamente os níveis inferiores. Você também pode tentar uma máquina maior, já que o Tableau só é limitado por recursos físicos na máquina em que está sendo executado.

Para obter informações sobre como detalhar no Tableau, consulte Detalhar os detalhes.

Em geral, ver muitas marcas granulares é muitas vezes um padrão analítico ruim, porque não fornece insights. Detalhar a partir de níveis mais altos de agregação faz mais sentido e reduz o número de registros que precisam ser processados e visualizados.

Use ações para otimizar painéis

Para detalhar de grupo para segmento para artigo, a fim de obter as mesmas análises e informações do painel "oceano fervido", você pode usar as ações do Tableau. As ações permitem que você clique em uma marca (por exemplo, um estado em um mapa) e seja enviado para outro painel que filtra com base no estado em que você clica. Isso reduz a necessidade de ter muitos filtros em um painel e reduz o número de registros que precisam ser gerados, porque você pode definir uma ação para não gerar registros até que ele obtenha um predicado para filtrar.

Para obter mais informações, consulte Ações e 6 dicas para tornar seus painéis com melhor desempenho.

Colocação em cache

Armazenar dados em cache é uma boa maneira de melhorar o desempenho de planilhas ou painéis.

Armazenamento em cache no Tableau

O Tableau tem quatro camadas de cache antes de voltar aos dados, estejam eles em uma conexão ativa ou em uma extração:

  • Blocos: se alguém estiver carregando exatamente o mesmo painel e nada mudar, o Tableau tentará reutilizar os mesmos blocos para os gráficos. Isso é semelhante aos blocos do Google Maps.
  • Modelo: Existem cálculos matemáticos usados para gerar visualizações no caso de os blocos não poderem ser usados. O Tableau Server tenta usar os mesmos modelos.
  • Resumo: Os resultados agregados das consultas também são armazenados. Este é o terceiro nível de "defesa". Se uma consulta retornar Soma(Vendas), Contagem(ordens), Soma(Custo), em uma consulta anterior e uma consulta futura quiser apenas Soma(Vendas), o Tableau pegará esse resultado e o usará.
  • Cache nativo: se a consulta for exatamente igual a outra, o Tableau usará os mesmos resultados. Este é o último nível de cache. Se isso falhar, o Tableau vai para os dados.

Frequência de cache no Tableau

O Tableau tem configurações administrativas para armazenamento em cache com mais ou menos frequência. Se o servidor estiver definido como Atualizar com menos frequência, o Tableau manterá os dados no cache por até 12 horas. Se estiver definido como Atualizar com mais frequência, o Tableau voltará aos dados em cada atualização de página.

Os clientes que têm o mesmo painel sendo usado novamente — por exemplo, "relatórios de pipeline de segunda-feira de manhã" — devem estar em um servidor definido como Atualizar com menos frequência para que todos os painéis usem o mesmo cache.

Aquecimento do cache no Tableau

No Tableau, você pode aquecer o cache definindo uma assinatura para que o painel seja enviado antes de desejar que ele seja visualizado. Isso ocorre porque o painel precisa ser renderizado para gerar a imagem para o e-mail de assinatura. Consulte Aquecimento do cache do Tableau Server usando assinaturas.

Tableau Desktop: o erro The drivers... are not properly installed é exibido

Problema: quando você tenta conectar o Tableau Desktop ao Databricks, o Tableau exibe uma mensagem de erro na caixa de diálogo de conexão com um link para a página de download do driver, onde você pode encontrar links de driver e instruções de instalação.

Causa: sua instalação do Tableau Desktop não está executando um driver compatível.

Resolução: Baixe o driver ODBC Databricks versão 2.6.15 ou superior.

Consulte também: Erro "Os drivers... não estão instalados corretamente" no site do Tableau.

Recursos adicionais