Bagikan melalui


Hubungkan ke dbt Core

Artcle ini menjelaskan apa itu dbt, cara menginstal dbt Core, dan cara menyambungkan. Versi dbt yang dihosting, yang disebut dbt Cloud juga tersedia. Untuk informasi selengkapnya, lihat Menyambungkan ke dbt Cloud.

Apa itu dbt?

dbt (data build tool) adalah lingkungan pengembangan untuk mengubah data dengan menulis pernyataan SELECT. dbt mengubah pernyataan pilih ini menjadi tabel dan tampilan. dbt mengompilasikan kode Anda menjadi SQL mentah lalu menjalankan kode tersebut pada database yang ditentukan di Azure Databricks. dbt mendukung pola pengkodian kolaboratif dan praktik terbaik, termasuk kontrol versi, dokumentasi, dan modularitas.

dbt tidak mengekstrak atau memuat data. dbt hanya berfokus pada langkah transformasi, menggunakan arsitektur "transform after load". dbt mengasumsikan bahwa Anda sudah memiliki salinan data di database Anda.

dbt Core memungkinkan Anda menulis kode dbt di IDE pilihan Anda pada komputer pengembangan lokal Anda lalu menjalankan dbt dari baris perintah. dbt Core mencakup antarmuka baris perintah dbt (CLI). Dbt CLI gratis untuk digunakan dan sumber terbuka.

dbt Core (dan dbt Cloud) dapat menggunakan repositori git yang dihosting. Untuk informasi selengkapnya, lihat Membuat proyek dbt dan Menggunakan proyek yang sudah ada di situs web dbt.

Persyaratan penginstalan

Sebelum memasang dbt Core, Anda harus memasang hal-hal berikut di mesin pengembangan lokal Anda:

  • Python 3.7 atau lebih tinggi
  • Utilitas untuk membuat lingkungan virtual Python (seperti pipenv)

Anda juga memerlukan salah satu hal berikut untuk mengautentikasi:

  • (Disarankan) dbt Core diaktifkan sebagai aplikasi OAuth di akun Anda. Hal ini diaktifkan secara default.

  • Token akses pribadi

    Catatan

    Sebagai praktik terbaik keamanan saat Anda mengautentikasi dengan alat, sistem, skrip, dan aplikasi otomatis, Databricks merekomendasikan agar Anda menggunakan token OAuth.

    Jika Anda menggunakan autentikasi token akses pribadi, Databricks merekomendasikan penggunaan token akses pribadi milik perwakilan layanan alih-alih pengguna ruang kerja. Untuk membuat token untuk perwakilan layanan, lihat Mengelola token untuk perwakilan layanan.

Langkah 1: Instal adaptor dbt Databricks

Sebaiknya gunakan lingkungan virtual Python karena mengisolasi versi paket dan dependensi kode ke lingkungan tertentu tersebut, terlepas dari versi paket dan dependensi kode di lingkungan lain. Ini membantu mengurangi ketidakcocokan versi paket yang tidak terduga dan benturan dependensi kode.

Databricks merekomendasikan versi 1.8.0 atau lebih tinggi dari paket dbt-databricks.

Penting

Jika komputer pengembangan lokal Anda menggunakan salah satu sistem operasi berikut, Anda harus menyelesaikan langkah tambahan terlebih dahulu: CentOS, MacOS, Ubuntu, Debian, dan Windows. Lihat bagian "Apakah sistem operasi saya memiliki prasyarat" dari Gunakan pip untuk menginstal dbt di situs web dbt Labs.

Langkah 2: Buat proyek dbt serta tentukan dan uji pengaturan koneksi

Buat proyek dbt (kumpulan direktori dan file terkait yang diperlukan untuk menggunakan dbt). Anda kemudian mengonfigurasi profil koneksi, yang berisi pengaturan koneksi ke komputasi Azure Databricks, gudang SQL, atau keduanya. Untuk meningkatkan keamanan, proyek dan profil dbt disimpan di lokasi terpisah secara default.

  1. Dengan lingkungan virtual yang masih diaktifkan, jalankan perintah dbt init dengan nama proyek. Contoh prosedur ini membuat proyek bernama my_dbt_demo.

    dbt init my_dbt_demo
    
  2. Saat Anda diminta untuk memilih databricks database atau spark , masukkan nomor yang sesuai dengan databricks.

  3. Saat dimintai host nilai, lakukan hal berikut:

    • Untuk komputasi, masukkan nilai Nama Host Server dari tab Opsi Tingkat Lanjut, JDBC/ODBC untuk komputasi Azure Databricks Anda.
    • Untuk gudang SQL, masukkan nilai Nama Host Server dari tab Detail Koneksi untuk gudang SQL Anda.
  4. Saat dimintai http_path nilai, lakukan hal berikut:

  5. Untuk memilih jenis autentikasi, masukkan nomor yang sesuai dengan use oauth (disarankan) atau use access token.

  6. Jika Anda memilih use access token jenis autentikasi, masukkan nilai token akses pribadi Azure Databricks Anda.

    Catatan

    Sebagai praktik terbaik keamanan, saat Anda mengautentikasi dengan alat, sistem, skrip, dan aplikasi otomatis, Databricks merekomendasikan agar Anda menggunakan token akses pribadi milik perwakilan layanan , bukan pengguna ruang kerja. Untuk membuat token untuk perwakilan layanan, lihat Mengelola token untuk perwakilan layanan.

  7. Saat dimintai desired Unity Catalog option nilai , masukkan angka yang sesuai dengan use Unity Catalog atau not use Unity Catalog.

  8. Jika Anda memilih untuk menggunakan Katalog Unity, masukkan nilai yang diinginkan saat catalog diminta.

  9. Masukkan nilai yang diinginkan untuk schema dan threads saat diminta.

  10. dbt menulis entri Anda ke file profiles.yml. Lokasi file ini tercantum dalam output perintah dbt init. Anda juga dapat mencantumkan lokasi ini nanti dengan menjalankan perintah dbt debug --config-dir. Anda dapat membuka file ini sekarang untuk memeriksa dan memverifikasi isinya.

    Jika Anda memilih use oauth jenis autentikasi, tambahkan profil autentikasi komputer-ke-mesin (M2M) atau pengguna-ke-mesin (U2M) Anda ke profiles.yml.

    Misalnya, lihatlah Mengonfigurasi masuk ke Azure Databricks dari dbt Core dengan ID Microsoft Entra.

    Databricks tidak merekomendasikan untuk langsung menentukan rahasia di profiles.yml. Sebagai gantinya, atur ID klien dan rahasia klien sebagai variabel lingkungan.

  11. Konfirmasi detail koneksi dengan menjalankan dbt debug perintah pada my_dbt_demo direktori.

    Jika Anda memilih use oauth untuk jenis autentikasi Anda, Anda akan diminta untuk masuk dengan penyedia identitas Anda.

    Penting

    Sebelum memulai, verifikasi bahwa komputasi atau gudang SQL Anda sedang berjalan.

    Anda akan melihat output yang mirip dengan hal berikut:

    cd my_dbt_demo
    dbt debug
    
    ...
    Configuration:
      profiles.yml file [OK found and valid]
      dbt_project.yml file [OK found and valid]
    
    Required dependencies:
      - git [OK found]
    
    Connection:
      ...
      Connection test: OK connection ok
    

Langkah berikutnya

Sumber Daya Tambahan: