Bagikan melalui


Menjalankan kueri federasi di ruang kerja Databricks lain

Penting

Fitur ini ada di Pratinjau Publik.

Artikel ini menjelaskan cara menyiapkan Lakehouse Federation untuk menjalankan kueri federasi pada data Databricks di ruang kerja Databricks lain. Untuk mempelajari selengkapnya tentang Federasi Lakehouse, lihat Apa itu Federasi Lakehouse.

Penting

Databricks-to-Databricks Lakehouse Federation adalah alat yang baik untuk menjalankan kueri pada data yang dikelola oleh metastore Apache Hive atau AWS Glue ruang kerja Databricks lainnya. Untuk sebagian besar skenario lainnya, alur kerja Azure Databricks lainnya lebih efisien:

  • Jika ruang kerja Azure Databricks berbagi metastore Unity Catalog yang sama, Anda dapat mengelola kueri lintas ruang kerja menggunakan kueri Unity Catalog standar dan alat tata kelola data.
  • Jika Anda ingin akses baca-saja ke data di ruang kerja Databricks yang dilampirkan ke metastore Unity Catalog yang berbeda, baik di akun Azure Databricks Anda atau tidak, Berbagi Delta adalah pilihan yang lebih baik.

Tidak perlu menyiapkan Federasi Lakehouse dalam salah satu skenario ini.

Untuk menyambungkan ke katalog Databricks di ruang kerja lain menggunakan Federasi Lakehouse, Anda harus membuat hal berikut di metastore Azure Databricks Unity Catalog Anda:

  • Kluster atau gudang SQL di ruang kerja Databricks.
  • Koneksi ke kluster atau gudang SQL.
  • Katalog asing di metastore Unity Catalog Anda yang mencerminkan katalog Databricks lainnya yang dapat diakses dari kluster atau gudang SQL sehingga Anda dapat menggunakan sintaks kueri Unity Catalog dan alat tata kelola data untuk mengelola akses pengguna Azure Databricks ke data.

Sebelum Anda mulai

Persyaratan ruang kerja:

  • Ruang kerja diaktifkan untuk Katalog Unity.

Persyaratan komputasi:

  • Konektivitas jaringan dari kluster Databricks Runtime atau gudang SQL Anda ke sistem database target. Lihat Rekomendasi jaringan untuk Federasi Lakehouse.
  • Kluster Azure Databricks harus menggunakan Databricks Runtime 13.3 LTS atau lebih tinggi dan mode akses bersama atau pengguna tunggal.
  • Gudang SQL harus Pro atau Tanpa Server.

Izin yang diperlukan:

  • Untuk membuat koneksi, Anda harus menjadi admin metastore atau pengguna dengan CREATE CONNECTION hak istimewa pada metastore Katalog Unity yang dilampirkan ke ruang kerja.
  • Untuk membuat katalog asing, Anda harus memiliki CREATE CATALOG izin di metastore dan menjadi pemilik koneksi atau memiliki CREATE FOREIGN CATALOG hak istimewa pada koneksi.

Persyaratan izin tambahan ditentukan di setiap bagian berbasis tugas yang mengikuti.

Anda juga harus memiliki kluster aktif atau gudang SQL di ruang kerja Azure Databricks yang Anda gunakan untuk mengonfigurasi koneksi.

Buat sambungan

Koneksi menentukan jalur dan kredensial untuk mengakses sistem database eksternal. Untuk membuat koneksi, Anda bisa menggunakan Catalog Explorer atau CREATE CONNECTION perintah SQL di buku catatan Azure Databricks atau editor kueri Databricks SQL.

Izin diperlukan: Admin atau pengguna Metastore dengan CREATE CONNECTION hak istimewa.

Penjelajah katalog

  1. Di ruang kerja Azure Databricks Anda, klik Ikon katalogKatalog.
  2. Di panel kiri, perluas menu Data Eksternal dan pilih Koneksi ions.
  3. Klik Buat koneksi.
  4. Masukkan nama Koneksi ion yang mudah digunakan.
  5. Pilih jenisKoneksi ion Databricks.
  6. Masukkan properti koneksi berikut untuk instans Databricks lainnya.
    • Host: Nama instans ruang kerja. Untuk mempelajari cara mendapatkan nama instans ruang kerja, lihat Mendapatkan pengidentifikasi untuk objek ruang kerja.
    • Jalur HTTP: Jalur HTTP untuk gudang SQL Anda. Untuk mendapatkan jalur, buka Gudang SQL > SQL di bar samping, pilih gudang SQL, buka tab detail Koneksi ion, dan salin nilai untuk jalur HTTP.
    • Token akses pribadi: Token akses pribadi Azure Databricks yang memungkinkan akses ke ruang kerja target.. Untuk mempelajari cara mendapatkan token, lihat Autentikasi token akses pribadi Azure Databricks. Untuk koneksi, Databricks merekomendasikan penggunaan token akses pribadi untuk perwakilan layanan.
  7. (Opsional) Klik Uji koneksi untuk mengonfirmasi bahwa koneksi berfungsi.
  8. (Opsional) Tambahkan komentar.
  9. Klik Buat.

Sql

Jalankan perintah berikut ini di buku catatan atau editor kueri Databricks SQL, ganti yang berikut ini:

  • <connection-name>: Nama yang mudah digunakan untuk koneksi yang Anda buat.
  • <workspace-instance>: Instans ruang kerja target. Untuk mempelajari cara mendapatkan nama instans ruang kerja, lihat Mendapatkan pengidentifikasi untuk objek ruang kerja.
  • <sql-warehouse-path>: Jalur HTTP untuk gudang SQL Anda. Untuk mendapatkan jalur, buka Gudang SQL > SQL di bar samping, pilih gudang SQL, buka tab detail Koneksi ion, dan salin nilai untuk jalur HTTP.
  • <personal-access-token>: Token akses pribadi Azure Databricks yang memungkinkan akses ke ruang kerja target. Untuk mempelajari cara mendapatkan token, lihat Autentikasi token akses pribadi Azure Databricks. Untuk koneksi, Databricks merekomendasikan agar Anda menggunakan token akses pribadi perwakilan layanan.
CREATE CONNECTION <connection-name> TYPE databricks
OPTIONS (
  host '<workspace-instance>',
  httpPath '<sql-warehouse-path>',
  personalAccessToken '<personal-access-token>'
);

Kami menyarankan agar Anda menggunakan rahasia Azure Databricks alih-alih string teks biasa untuk nilai sensitif seperti kredensial. Contohnya:

CREATE CONNECTION <connection-name> TYPE databricks
OPTIONS (
  host '<workspace-instance>',
  httpPath '<sql-warehouse-path>',
  personalAccessToken secret ('<secret-scope>','<secret-key-password>')
)

Untuk informasi tentang menyiapkan rahasia, lihat Manajemen rahasia.

Membuat katalog asing

Katalog asing mencerminkan katalog di ruang kerja Databricks eksternal sehingga Anda dapat mengkueri dan mengelola akses ke data di katalog Databricks eksternal seolah-olah itu adalah katalog di workspsace Anda sendiri. Untuk membuat katalog asing, Anda menggunakan koneksi ke ruang kerja Databricks eksternal yang telah ditentukan.

Untuk membuat katalog asing, Anda bisa menggunakan Catalog Explorer atau CREATE FOREIGN CATALOG perintah SQL di buku catatan Azure Databricks atau editor kueri Databricks SQL.

Izin diperlukan:CREATE CATALOG izin pada metastore dan kepemilikan koneksi atau CREATE FOREIGN CATALOG hak istimewa pada koneksi.

Penjelajah katalog

  1. Di ruang kerja Azure Databricks Anda, klik Ikon katalogKatalog.
  2. Klik tombol Buat Katalog .
  3. Pada dialog Buat katalog baru, masukkan nama untuk katalog dan pilih JenisAsing.
  4. Pilih Koneksi ion yang menyediakan akses ke database yang ingin Anda cerminkan sebagai katalog Katalog Unity.
  5. Masukkan nama Databricks Catalog target.
  6. Klik Buat.

Sql

Jalankan perintah SQL berikut ini di notebook atau editor Databricks SQL. Item dalam tanda kurung bersifat opsional. Ganti nilai tempat penampung:

  • <catalog-name>: Nama untuk katalog asing yang Anda buat.
  • <connection-name>: Objek koneksi yang menentukan sumber data, jalur, dan kredensial akses.
  • <external-catalog-name>: Nama katalog di ruang kerja Databricks eksternal yang Anda cerminkan.
CREATE FOREIGN CATALOG [IF NOT EXISTS] <catalog-name> USING CONNECTION <connection-name>
OPTIONS (catalog '<external-catalog-name>');

Pushdown yang didukung

Pushdown berikut didukung pada semua komputasi:

  • Filter
  • Proyeksi
  • Batas
  • Fungsi: hanya ekspresi filter yang didukung (fungsi string, fungsi Matematika, fungsi Data, Time dan Timestamp, dan fungsi lain-lain, seperti Alias, Cast, SortOrder).

Pushdown berikut didukung pada Databricks Runtime 13.3 LTS ke atas dan komputasi gudang SQL:

  • Agregat
  • Operator Boolean berikut: =, <, <=, >, >=, <=>
  • Fungsi matematika berikut (tidak didukung jika ANSI dinonaktifkan): +, -, *, %, /
  • Operator lain-lain berikut: ^, |, ~
  • Pengurutan, saat digunakan dengan batas

Pushdown berikut ini tidak didukung:

  • Gabungan
  • Fungsi Windows