Menyambungkan Tableau dan Azure Databricks
Artikel ini memperlihatkan kepada Anda cara menggunakan Partner Connect untuk menyambungkan dari Azure Databricks ke Tableau Desktop dan dari Tableau Desktop atau Tableau Cloud ke Azure Databricks. Artikel ini juga menyertakan informasi tentang Tableau Server di Linux.
Catatan
Untuk mengonfigurasi masuk Azure Databricks dari Tableau Server, lihat Mengonfigurasi masuk Azure Databricks dari Tableau Server.
Ketika Anda menggunakan Azure Databricks sebagai sumber data dengan Tableau, Anda dapat menyediakan analitik interaktif yang kuat, yang membawa kontribusi dari ilmuwan data dan teknisi data Anda kepada analis bisnis Anda dengan menskalakan ke himpunan data masif.
Persyaratan untuk menyambungkan Tableau dan Azure Databricks
Detail koneksi untuk sumber daya komputasi atau gudang SQL, khususnya nilai Nama Host Server dan Jalur HTTP.
- Dapatkan detail koneksi untuk sumber daya komputasi Azure Databricks.
Tableau Desktop 2019.3 ke atas.
Databricks ODBC Driver 2.6.15 ke atas.
Token ID Microsoft Entra (sebelumnya Azure Active Directory) (disarankan), token akses pribadi Azure Databricks, atau kredensial akun ID Microsoft Entra Anda.
Catatan
Sebagai praktik terbaik keamanan, saat Anda mengautentikasi dengan alat, sistem, skrip, dan aplikasi otomatis, Databricks merekomendasikan agar Anda menggunakan token akses pribadi milik perwakilan layanan, bukan pengguna ruang kerja. Untuk membuat token untuk perwakilan layanan, lihat Mengelola token untuk perwakilan layanan.
Anda harus diberi salah satu peran ID Microsoft Entra berikut:
Jika alur kerja persetujuan admin dikonfigurasi, non-admin dapat meminta akses ke Tableau saat masuk.
Menyambungkan Azure Databricks ke Tableau Desktop menggunakan Partner Connect
Anda dapat menggunakan Partner Connect untuk menghubungkan sumber daya komputasi atau gudang SQL dengan Tableau Desktop hanya dengan beberapa klik.
- Pastikan akun Azure Databricks Anda, ruang kerja, dan pengguna yang masuk semuanya memenuhi persyaratan untuk Sambungkan Mitra.
- Di bar samping, klik Sambungkan Mitra.
- Klik petak Tableau.
- Dalam dialog Sambungkan ke mitra, untuk Komputasi, pilih nama sumber daya komputasi Azure Databricks yang ingin Anda sambungkan.
- Pilih Unduh file sambungan.
- Buka file sambungan yang diunduh, yang memulai Tableau Desktop.
- Di Tableau Desktop, masukkan kredensial autentikasi Anda, lalu klik Masuk:
- Untuk menggunakan token ID Microsoft Entra, masukkan token untuk Nama Pengguna dan token ID Microsoft Entra Anda untuk Kata Sandi.
- Untuk menggunakan token akses pribadi Azure Databricks, masukkan token untuk Nama Pengguna dan token akses pribadi Anda untuk Kata Sandi.
- Untuk menggunakan kredensial MICROSOFT Entra ID Anda, klik Edit Koneksi, klik dua kali database di tab Data , lalu pilih ID Microsoft Entra di daftar Autentikasi .
Untuk Tableau Desktop 2021.1 ke atas:
- Jika Anda tidak menggunakan akun tamu Microsoft Entra ID (sebelumnya Azure Active Directory) B2B atau Azure Databricks di Azure Government, Anda cukup memasukkan
https://login.microsoftonline.com/common
sebagai Titik Akhir OAuth.
- Jika Anda menggunakan akun tamu Microsoft Entra ID B2B atau Azure Databricks di Azure Government, hubungi administrator Anda untuk mendapatkan gudang ID Microsoft Entra khusus.
Catatan
Jika Anda bukan admin, kesalahan Perlu persetujuan admin akan ditampilkan. Minta administrator aplikasi cloud, atau administrator aplikasi untuk memberi Anda izin untuk tersambung ke Tableau, lalu coba masuk lagi.
Jika akun ID Microsoft Entra Anda mengaktifkan alur kerja persetujuan admin, Tableau Desktop meminta Anda untuk meminta akses ke Tableau. Setelah administrator aplikasi cloud, atau administrator aplikasi menyetujui permintaan, coba masuk lagi.
- Jika Anda tidak menggunakan akun tamu Microsoft Entra ID (sebelumnya Azure Active Directory) B2B atau Azure Databricks di Azure Government, Anda cukup memasukkan
Menyambungkan Tableau Desktop ke Azure Databricks
Ikuti instruksi ini untuk menyambungkan dari Tableau Desktop ke sumber daya komputasi atau gudang SQL.
Catatan
Untuk tersambung lebih cepat dengan Tableau Desktop, gunakan Partner Connect.
Mulai Tableau Desktop.
Klik File > Baru.
Pada tab Data, klik Sambungkan ke Data.
Di daftar konektor, klik Databricks.
Dapatkan Nama Host Server dan Jalur HTTP.
Untuk Autentikasi, pilih metode autentikasi Anda, masukkan kredensial autentikasi Anda, lalu klik Masuk.
Untuk menggunakan token ID Microsoft Entra, pilih Token Akses Pribadi dan masukkan token ID Microsoft Entra Anda untuk Kata Sandi.
Untuk menggunakan token akses pribadi Azure Databricks, pilih Token Akses Pribadi dan masukkan token akses pribadi Anda untuk Kata Sandi.
Untuk menggunakan kredensial ID Microsoft Entra Anda, pilih ID Microsoft Entra.
Untuk Tableau Desktop 2021.1 ke atas:
Jika Anda tidak menggunakan akun tamu Microsoft Entra ID (sebelumnya Azure Active Directory) B2B atau Azure Databricks di Azure Government, Anda cukup memasukkan
https://login.microsoftonline.com/common
sebagai Titik Akhir OAuth.- Jika Anda menggunakan akun tamu Microsoft Entra ID B2B atau Azure Databricks di Azure Government, hubungi administrator Anda untuk mendapatkan gudang ID Microsoft Entra khusus.
Catatan
Jika Anda bukan admin, kesalahan Perlu persetujuan admin akan ditampilkan. Minta administrator aplikasi cloud, atau administrator aplikasi untuk memberi Anda izin untuk tersambung ke Tableau, lalu coba masuk lagi.
Jika akun ID Microsoft Entra Anda mengaktifkan alur kerja persetujuan admin, Tableau Desktop meminta Anda untuk meminta akses ke Tableau. Setelah administrator aplikasi cloud, atau administrator aplikasi menyetujui permintaan, coba masuk lagi.
Jika Katalog Unity diaktifkan untuk ruang kerja Anda, atur juga katalog default. Di tab Tingkat Lanjut, untuk Properti koneksi, tambahkan
Catalog=<catalog-name>
. Untuk mengubah katalog default, di tab SQL Awal, masukkanUSE CATALOG <catalog-name>
.
Menyambungkan Tableau Cloud ke Azure Databricks
Ikuti instruksi ini untuk menyambungkan ke sumber daya komputasi atau gudang SQL dari Tableau Cloud.
- Mulai ruang buku baru
- Pada bilah menu, klik >Sumber Data Baru.
- Pada halaman Sambungkan ke Data, klik Konektor>Databricks.
- Pada halaman Azure Databricks, masukkan nilai Nama Host Server dan Jalur HTTP.
- Pilih metode autentikasi Anda dan masukkan informasi yang diminta (jika ada).
- Klik Masuk.
Tableau Server pada Linux
Edit /etc/odbcinst.ini
untuk menyertakan hal berikut:
[Simba Spark ODBC Driver 64-bit]
Description=Simba Spark ODBC Driver (64-bit)
Driver=/opt/simba/spark/lib/64/libsparkodbc_sb64.so
Catatan
Tableau Server pada Linux menyarankan arsitektur pemrosesan 64-bit.
Menerbitkan dan merefresh buku kerja di Tableau Cloud dari Tableau Desktop
Artikel ini memperlihatkan cara menerbitkan buku kerja dari Tableau Desktop ke Tableau Cloud dan membuatnya tetap diperbarui saat sumber data berubah. Anda memerlukan buku kerja di Tableau Desktop dan akun Tableau Cloud .
- Ekstrak data buku kerja dari Tableau Desktop: di Tableau Desktop, dengan buku kerja yang ingin Anda terbitkan ditampilkan, klik Ekstrak Data >
<data-source-name>
>. - Di kotak dialog Ekstrak Data, klik Ekstrak.
- Telusuri ke lokasi pada komputer lokal tempat Anda ingin menyimpan data yang diekstrak, lalu klik Simpan.
- Terbitkan sumber data buku kerja ke Tableau Cloud: di Tableau Desktop, klik Server > Terbitkan Sumber >
<data-source-name>
Data . - Jika kotak dialog Masuk Tableau Server ditampilkan, klik tautan Tableau Cloud , dan ikuti petunjuk di layar untuk masuk ke Tableau Cloud.
- Dalam kotak dialog Terbitkan Sumber Data ke Tableau Cloud , di samping Refresh Tidak Diaktifkan, klik tautan Edit .
- Di kotak flyout yang ditampilkan, untuk Autentikasi, ubah Refresh tidak diaktifkan ke Izinkan akses refresh.
- Klik di mana pun di luar flyout ini untuk menyembunyikannya.
- Pilih Perbarui buku kerja untuk menggunakan sumber data yang diterbitkan.
- Klik Publikasikan. Sumber data ditampilkan di Tableau Cloud.
- Di Tableau Cloud, dalam kotak dialog Penerbitan Selesai , klik Jadwalkan, dan ikuti petunjuk di layar.
- Terbitkan buku kerja ke Tableau Cloud: di Tableau Desktop, dengan buku kerja yang ingin Anda terbitkan ditampilkan, klik Buku Kerja Terbitkan Server>.
- Dalam kotak dialog Terbitkan Buku Kerja ke Tableau Cloud , klik Terbitkan. Buku kerja ditampilkan di Tableau Cloud.
Tableau Cloud memeriksa perubahan pada sumber data sesuai dengan jadwal yang Anda tetapkan, dan memperbarui buku kerja yang diterbitkan jika perubahan terdeteksi.
Untuk informasi selengkapnya, lihat hal berikut pada situs web Tableau:
- Menerbitkan Sumber Data
- Langkah Komprehensif untuk Menerbitkan Buku Kerja
- Menjadwalkan Refresh Ekstrak saat Anda Menerbitkan Buku Kerja
Praktik terbaik dan pemecahan masalah
Dua tindakan mendasar untuk mengoptimalkan kueri Tableau adalah:
- Kurangi jumlah rekaman yang dikueri dan divisualisasikan dalam satu bagan atau dasbor.
- Kurangi jumlah kueri yang dikirimkan oleh Tableau dalam satu bagan atau dasbor.
Keputusan tentang mana yang harus dicoba terlebih dahulu tergantung dari dasbor Anda. Jika Anda memiliki berbagai bagan bagi pengguna individu di dasbor yang sama, kemungkinan Tableau mengirimkan terlalu banyak kueri ke Azure Databricks. Jika Anda hanya memiliki beberapa bagan tetapi dibutuhkan waktu lama untuk memuat, mungkin ada terlalu banyak rekaman yang ditampilkan oleh Azure Databricks untuk dimuat secara efektif.
Perekaman performa Tableau, yang tersedia pada Tableau Desktop maupun Tableau Server, dapat membantu Anda memahami di mana penyempitan performa dengan mengidentifikasi proses yang menyebabkan latensi ketika Anda menjalankan alur kerja atau dasbor tertentu.
Mengaktifkan perekaman performa untuk mendebug masalah Tableau apa pun
Contohnya, jika masalahnya adalah eksekusi kueri, Anda tahu itu ada hubungannya dengan proses mesin data atau sumber data yang Anda kueri. Jika tata letak visual berkinerja lambat, Anda tahu bahwa itu karena VizQL.
Jika perekaman performa mengatakan bahwa latensi sedang mengeksekusi kueri, kemungkinan terlalu lama waktu yang diambil oleh Azure Databricks untuk menampilkan hasil atau oleh overlay ODBC/Connector untuk memproses data menjadi SQL untuk VizQL. Ketika ini terjadi, Anda harus menganalisis apa yang Anda tampilkan dan berupaya mengubah pola analitik agar memiliki dasbor per grup, segmen, atau artikel daripada mencoba menjejalkan semuanya ke dalam satu dasbor dan mengandalkan Filter Cepat.
Jika performa yang buruk disebabkan oleh pengurutan atau tata letak visual, masalahnya mungkin adalah jumlah tanda yang coba ditampilkan oleh dasbor. Azure Databricks dapat menampilkan satu juta rekaman dengan cepat, tetapi Tableau mungkin tidak dapat mengomputasi tata letak dan mengurutkan hasilnya. Jika ini merupakan masalah, agregasi kueri dan telusuri ke dalam tingkat yang lebih rendah. Anda juga dapat mencoba mesin yang lebih besar, karena Tableau hanya dibatasi oleh sumber daya fisik pada mesin tempat ia berjalan.
Untuk tutorial mendalam tentang perekam performa, lihat Membuat Perekaman Performa.
Performa pada Tableau Server versus Tableau Desktop
Secara umum, alur kerja yang berjalan di Tableau Desktop tidak lebih cepat di Tableau Server. Dasbor yang tidak dijalankan di Tableau Desktop tidak akan dijalankan di Tableau Server.
Menggunakan Desktop adalah teknik pemecahan masalah yang jauh lebih baik, karena Tableau Server memiliki lebih banyak proses untuk dipertimbangkan saat Anda memecahkan masalah. Jika hal-hal berfungsi di Tableau Desktop tetapi tidak di Tableau Server, maka Anda dapat dengan aman mempersempit masalah ke proses di Tableau Server yang tidak ada di Tableau Desktop.
Konfigurasi
Secara default, parameter dari URL sambungan mengambil alih yang ada di DSN Simba ODBC. Ada dua cara untuk mengkustomisasi konfigurasi ODBC dari Tableau:
.tds
file untuk satu sumber data:- Ikuti petunjuk di Simpan Sumber Data untuk mengekspor file
.tds
untuk sumber data. - Temukan baris properti
odbc-connect-string-extras=''
di file.tds
dan atur parameternya. Misalnya, untuk mengaktifkanAutoReconnect
danUseNativeQuery
, Anda dapat mengubah baris menjadiodbc-connect-string-extras='AutoReconnect=1,UseNativeQuery=1'
. - Muat ulang file
.tds
dengan menyambungkan kembali sambungan.
Sumber daya komputasi dioptimalkan untuk menggunakan lebih sedikit memori bertumpuk untuk mengumpulkan hasil yang besar, sehingga dapat melayani lebih banyak baris per blok ambil daripada default Simba ODBC. Tambahkan
RowsFetchedPerBlock=100000'
ke nilai propertiodbc-connect-string-extras
.- Ikuti petunjuk di Simpan Sumber Data untuk mengekspor file
.tdc
file untuk semua sumber data:- Jika Anda belum pernah membuat file
.tdc
, Anda dapat menambahkan TableauTdcExample.tdc ke folderDocument/My Tableau Repository/Datasources
. - Tambahkan file ke semua penginstalan Tableau Desktop pengembang, sehingga berfungsi ketika dasbor dibagikan.
- Jika Anda belum pernah membuat file
Mengoptimalkan bagan (lembar kerja)
Ada sejumlah pengoptimalan bagan taktis yang dapat membantu Anda meningkatkan performa lembar kerja Tableau Anda.
Untuk filter yang tidak sering berubah dan tidak dimaksudkan untuk berinteraksi, gunakan filter konteks, yang mempercepat waktu eksekusi.
Aturan praktis bagus lainnya adalah menggunakan pernyataan if/else
daripada pernyataan case/when
dalam kueri Anda.
Tableau dapat menurunkan filter ke sumber data, yang dapat meningkatkan kecepatan kueri. Lihat Pemfilteran Lintas Beberapa Sumber Data Menggunakan Parameter dan Memfilter Data Lintas Beberapa Sumber Data untuk informasi selengkapnya tentang filter penekanan sumber data.
Cobalah untuk menghindari perhitungan tabel, saat memindai himpunan data lengkap. Untuk informasi selengkapnya tentang perhitungan tabel, lihat Mengubah Nilai dengan Perhitungan Tabel.
Mengoptimalkan dasbor
Berikut ini adalah beberapa tips dan latihan pemecahan masalah yang dapat Anda terapkan untuk meningkatkan performa dasbor Tableau Anda.
Dengan dasbor Tableau yang tersambung ke Azure Databricks, filter cepat di dasbor individual yang melayani sejumlah pengguna, fungsi, atau segmen yang berbeda dapat menjadi sumber masalah umum. Anda dapat melampirkan filter cepat ke semua bagan di dasbor. Satu filter cepat di dasbor dengan lima bagan menyebabkan minimal 10 kueri dikirim ke Azure Databricks. Ini dapat tumbuh ke angka yang lebih besar ketika lebih banyak filter ditambahkan, dan dapat menyebabkan masalah performa karena Spark tidak dibangun untuk menangani banyak kueri bersamaan mulai pada saat yang sama persis. Ini menjadi lebih bermasalah ketika kluster Azure Databricks atau gudang SQL yang Anda gunakan tidak cukup besar untuk menangani volume kueri yang tinggi.
Sebagai langkah pertama, sebaiknya gunakan perekaman performa Tableau untuk memecahkan masalah dari apa yang mungkin menyebabkan masalah.
Jika performa yang buruk disebabkan oleh pengurutan atau tata letak visual, masalahnya mungkin adalah jumlah tanda yang coba ditampilkan oleh dasbor. Azure Databricks dapat menampilkan satu juta rekaman dengan cepat, tetapi Tableau mungkin tidak dapat mengomputasi tata letak dan mengurutkan hasilnya. Jika ini merupakan masalah, agregasi kueri dan telusuri ke dalam tingkat yang lebih rendah. Anda juga dapat mencoba mesin yang lebih besar, karena Tableau hanya dibatasi oleh sumber daya fisik pada mesin tempat ia berjalan.
Untuk informasi tentang penelusuran paling detail di Tableau, lihat Telusuri sampai paling detail.
Secara umum, melihat banyak tanda granular seringkali merupakan pola analitik yang buruk, karena tidak menyediakan wawasan. Penelusuran paling detail dari tingkat agregasi yang lebih tinggi lebih masuk akal dan mengurangi jumlah rekaman yang perlu diproses dan divisualisasikan.
Menggunakan tindakan untuk mengoptimalkan dasbor
Gunakan Tableau _actions untuk mengklik tanda (misalnya status di peta) dan dikirim ke dasbor lain yang memfilter berdasarkan status yang Anda klik. Ini mengurangi kebutuhan untuk memiliki beberapa filter pada satu dasbor dan mengurangi jumlah rekaman yang perlu dihasilkan. (Anda mengatur tindakan untuk tidak menghasilkan rekaman hingga mendapatkan predikat untuk difilter.
Untuk informasi selengkapnya, lihat Tindakan dan 6 Tips untuk Membuat Dasbor Anda Lebih Berperforma.
penembolokan
Penembolokan data adalah cara yang baik untuk meningkatkan performa lembar kerja atau dasbor.
Penembolokan di Tableau
Tableau memiliki empat lapisan penembolokan sebelum ia kembali ke data, baik ketika data itu dalam koneksi langsung atau ekstrak:
- Petak: Jika seseorang memuat dasbor yang sama persis dan tidak ada perubahan, Tableau mencoba menggunakan kembali petak peta yang sama untuk bagan. Ini mirip dengan petak Google Maps.
- Model: Ada perhitungan matematis yang digunakan untuk menghasilkan visualisasi jika petak tidak dapat digunakan. Tableau Server mencoba menggunakan model yang sama.
- Abstrak: Hasil agregat kueri juga disimpan. Ini merupakan level "pertahanan" ketiga. Jika kueri menampilkan Jumlah(Penjualan), Jumlah (pesanan), Jumlah (Biaya), dalam kueri sebelumnya dan kueri yang akan datang hanya menginginkan Jumlah (Penjualan), maka Tableau mengambil tampilan tersebut dan menggunakannya.
- Tembolokan Bawaan: Jika kueri sama persis dengan yang lain, Tableau menggunakan hasil yang sama. Ini merupakan tingkat penembolokan terakhir. Jika ini gagal, maka Tableau menuju ke data.
Frekuensi penembolokan di Tableau
Tableau memiliki pengaturan administratif untuk penembolokan lebih atau kurang sering. Jika server diatur ke Refresh Lebih Jarang, Tableau menyimpan data dalam tembolokan hingga 12 jam. Jika diatur ke Refresh Lebih Sering, Tableau kembali ke data pada setiap kali halaman merefresh.
Pelanggan yang memiliki dasbor yang sama yang digunakan berulang kali—misalnya, "Laporan alur Senin pagi"—harus berada di server yang diatur ke Refresh Lebih Jarang sehingga dasbor menggunakan tembolokan yang sama.
Pemanasan cache di Tableau
Di Tableau, Anda dapat menghangatkan cache dengan mengatur langganan untuk dasbor yang akan dikirim sebelum Anda ingin dasbor ditampilkan. Ini karena dasbor perlu dirender untuk menghasilkan gambar untuk email langganan. Lihat Pemanasan Tembolokan Server Tableau Menggunakan Langganan.
Tableau Desktop: Kesalahan The drivers... are not properly installed
ditampilkan
Masalah: Ketika Anda mencoba menyambungkan Tableau Desktop ke Databricks, Tableau menampilkan pesan kesalahan dalam dialog sambungan dengan tautan ke halaman unduhan driver, tempat Anda dapat menemukan tautan driver dan instruksi penginstalan.
Penyebab: Penginstalan Tableau Desktop Anda tidak dijalankan dengan driver yang didukung.
Resolusi: Unduh driver Databricks ODBC versi 2.6.15 ke atas.
Baca juga: Kesalahan “Driver... tidak diinstal dengan benar” pada situs web Tableau.
Batasan kunci primer /asing
Untuk menyebarkan batasan kunci primer (PK) dan kunci asing (FK) dari Azure Databricks ke Tableau, Anda harus memahami kemampuan dan batasan kedua platform mengenai batasan.
Memahami batasan Azure Databricks
Azure Databricks mendukung batasan kunci primer dan asing mulai dari Databricks Runtime 15.2. Batasan ini bersifat informasional dan tidak diberlakukan secara default, yang berarti tidak mencegah pelanggaran integritas data tetapi dapat digunakan untuk mengoptimalkan kueri dan memberikan metadata tentang hubungan data. Lihat Mendeklarasikan kunci primer dan hubungan kunci asing.
Memahami Tableau menggunakan batasan untuk membuat hubungan tabel
Tableau tidak secara langsung memberlakukan batasan kunci primer dan asing tetapi menggunakan hubungan untuk memodelkan koneksi data. Untuk bekerja dengan batasan di Tableau, Anda harus memahami bahwa model data Tableau menawarkan 2 tingkat pemodelan: lapisan logis dan lapisan fisik. Lihat Model Data Tableau. Implikasi model data dua tingkat ini pada batasan Azure Databricks yang dikenali sebagai hubungan di Tableau dibahas di bawah ini.
Menyambungkan Azure Databricks ke Tableau
Saat Anda menyambungkan Azure Databricks ke Tableau, Tableau mencoba membuat hubungan di lapisan fisik antar tabel berdasarkan batasan kunci yang ada dan bidang yang cocok. Tableau secara otomatis mencoba mendeteksi dan membuat hubungan di lapisan fisik berdasarkan batasan kunci primer dan asing yang ditentukan dalam Azure Databricks. Jika tidak ada batasan kunci yang ditentukan, Tableau menggunakan nama kolom yang cocok untuk menghasilkan gabungan secara otomatis. Pada lapisan logis, hanya kecocokan nama kolom tunggal yang digunakan untuk menentukan hubungan. Pada lapisan fisik, pencocokan nama kolom ini mendeteksi hubungan kunci sederhana (kolom tunggal) dan komposit (multi-kolom).
Jika Tableau tidak dapat menentukan bidang yang cocok, Anda perlu menentukan hubungan gabungan secara manual antara dua tabel di lapisan fisik dengan menyediakan kolom, kondisi, dan jenis batasan. Untuk beralih dari lapisan logis di UI ke lapisan fisik, klik dua kali tabel di lapisan logis.