Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Artcle ini menjelaskan apa itu dbt, cara menginstal dbt Core, dan cara menyambungkan. Versi dbt yang dihosting, yang disebut dbt Cloud juga tersedia. Untuk informasi selengkapnya, lihat Menyambungkan ke dbt Cloud.
Apa itu dbt?
dbt (data build tool) adalah lingkungan pengembangan untuk mengubah data dengan menulis pernyataan SELECT. dbt mengubah pernyataan pilih ini menjadi tabel dan tampilan. dbt mengompilasikan kode Anda menjadi SQL mentah lalu menjalankan kode tersebut pada database yang ditentukan di Azure Databricks. dbt mendukung pola pengkodian kolaboratif dan praktik terbaik, termasuk kontrol versi, dokumentasi, dan modularitas.
dbt tidak mengekstrak atau memuat data. dbt hanya berfokus pada langkah transformasi, menggunakan arsitektur "transform after load". dbt mengasumsikan bahwa Anda sudah memiliki salinan data di database Anda.
dbt Core memungkinkan Anda menulis kode dbt di IDE pilihan Anda pada komputer pengembangan lokal Anda lalu menjalankan dbt dari baris perintah. dbt Core mencakup antarmuka baris perintah dbt (CLI). Dbt CLI gratis untuk digunakan dan sumber terbuka.
dbt Core (dan dbt Cloud) dapat menggunakan repositori git yang dihosting. Untuk informasi selengkapnya, lihat Membuat proyek dbt dan Menggunakan proyek yang sudah ada di situs web dbt.
Persyaratan penginstalan
Sebelum memasang dbt Core, Anda harus memasang hal-hal berikut di mesin pengembangan lokal Anda:
Anda juga memerlukan salah satu hal berikut untuk mengautentikasi:
(Disarankan) dbt Core diaktifkan sebagai aplikasi OAuth di akun Anda. Hal ini diaktifkan secara default.
Token akses pribadi
Catatan
Sebagai praktik terbaik keamanan saat Anda mengautentikasi dengan alat, sistem, skrip, dan aplikasi otomatis, Databricks merekomendasikan agar Anda menggunakan token OAuth.
Jika Anda menggunakan autentikasi token akses pribadi, Databricks merekomendasikan penggunaan token akses pribadi milik perwakilan layanan alih-alih pengguna ruang kerja. Untuk membuat token untuk perwakilan layanan, lihat Mengelola token untuk perwakilan layanan.
Langkah 1: Instal adaptor dbt Databricks
Sebaiknya gunakan lingkungan virtual Python karena mengisolasi versi paket dan dependensi kode ke lingkungan tertentu tersebut, terlepas dari versi paket dan dependensi kode di lingkungan lain. Ini membantu mengurangi ketidakcocokan versi paket yang tidak terduga dan benturan dependensi kode.
Databricks merekomendasikan versi 1.8.0 atau lebih tinggi dari paket dbt-databricks.
Penting
Jika komputer pengembangan lokal Anda menggunakan salah satu sistem operasi berikut, Anda harus menyelesaikan langkah tambahan terlebih dahulu: CentOS, MacOS, Ubuntu, Debian, dan Windows. Lihat bagian "Apakah sistem operasi saya memiliki prasyarat" dari Gunakan pip untuk menginstal dbt di situs web dbt Labs.
Langkah 2: Buat proyek dbt serta tentukan dan uji pengaturan koneksi
Buat proyek dbt (kumpulan direktori dan file terkait yang diperlukan untuk menggunakan dbt). Anda kemudian mengonfigurasi profil koneksi, yang berisi pengaturan koneksi ke komputasi Azure Databricks, gudang SQL, atau keduanya. Untuk meningkatkan keamanan, proyek dan profil dbt disimpan di lokasi terpisah secara default.
Dengan lingkungan virtual yang masih diaktifkan, jalankan perintah dbt init dengan nama proyek. Contoh prosedur ini membuat proyek bernama
my_dbt_demo
.dbt init my_dbt_demo
Saat Anda diminta untuk memilih
databricks
database atauspark
, masukkan nomor yang sesuai dengandatabricks
.Saat dimintai
host
nilai, lakukan hal berikut:- Untuk komputasi, masukkan nilai Nama Host Server dari tab Opsi Tingkat Lanjut, JDBC/ODBC untuk komputasi Azure Databricks Anda.
- Untuk gudang SQL, masukkan nilai Nama Host Server dari tab Detail Koneksi untuk gudang SQL Anda.
Saat dimintai
http_path
nilai, lakukan hal berikut:- Untuk komputasi, masukkan nilai Jalur HTTP dari tab Opsi Tingkat Lanjut, JDBC/ODBC untuk komputasi Azure Databricks Anda.
- Untuk gudang SQL, masukkan nilai Jalur HTTP dari tab Detail Koneksi untuk gudang SQL Anda.
Untuk memilih jenis autentikasi, masukkan nomor yang sesuai dengan
use oauth
(disarankan) atauuse access token
.Jika Anda memilih
use access token
jenis autentikasi, masukkan nilai token akses pribadi Azure Databricks Anda.Catatan
Sebagai praktik terbaik keamanan, saat Anda mengautentikasi dengan alat, sistem, skrip, dan aplikasi otomatis, Databricks merekomendasikan agar Anda menggunakan token akses pribadi milik perwakilan layanan , bukan pengguna ruang kerja. Untuk membuat token untuk perwakilan layanan, lihat Mengelola token untuk perwakilan layanan.
Saat dimintai
desired Unity Catalog option
nilai , masukkan angka yang sesuai denganuse Unity Catalog
ataunot use Unity Catalog
.Jika Anda memilih untuk menggunakan Katalog Unity, masukkan nilai yang diinginkan saat
catalog
diminta.Masukkan nilai yang diinginkan untuk
schema
danthreads
saat diminta.dbt menulis entri Anda ke file
profiles.yml
. Lokasi file ini tercantum dalam output perintahdbt init
. Anda juga dapat mencantumkan lokasi ini nanti dengan menjalankan perintahdbt debug --config-dir
. Anda dapat membuka file ini sekarang untuk memeriksa dan memverifikasi isinya.Jika Anda memilih
use oauth
jenis autentikasi, tambahkan profil autentikasi komputer-ke-mesin (M2M) atau pengguna-ke-mesin (U2M) Anda keprofiles.yml
.Misalnya, lihatlah Mengonfigurasi masuk ke Azure Databricks dari dbt Core dengan ID Microsoft Entra.
Databricks tidak merekomendasikan untuk langsung menentukan rahasia di
profiles.yml
. Sebagai gantinya, atur ID klien dan rahasia klien sebagai variabel lingkungan.Konfirmasi detail koneksi dengan menjalankan
dbt debug
perintah padamy_dbt_demo
direktori.Jika Anda memilih
use oauth
untuk jenis autentikasi Anda, Anda akan diminta untuk masuk dengan penyedia identitas Anda.Penting
Sebelum memulai, verifikasi bahwa komputasi atau gudang SQL Anda sedang berjalan.
Anda akan melihat output yang mirip dengan hal berikut:
cd my_dbt_demo dbt debug
... Configuration: profiles.yml file [OK found and valid] dbt_project.yml file [OK found and valid] Required dependencies: - git [OK found] Connection: ... Connection test: OK connection ok
Langkah berikutnya
- Membuat, menjalankan, dan menguji model dbt Core secara lokal. Lihat tutorial dbt Core.
- Jalankan proyek dbt Core sebagai tugas pekerjaan Azure Databricks. Lihat Menggunakan transformasi dbt di Pekerjaan Lakeflow.
Sumber Daya Tambahan:
- Apakah sebenarnya dbt itu?
- Rekayasa Analitik untuk Semua Orang: Databricks di dbt Cloud di situs web dbt.
- Tutorial Memulai dengan dbt
- dokumentasi dbt
- dokumentasi CLI dbt
- dbt + Demo Databricks
- blog dbt