Menyiapkan dan mengelolaKatalog Unity

Artikel ini menjelaskan cara mengonfigurasi dan menggunakan Unity Catalog untuk mengelola data di ruang kerja Azure Databricks Anda. Ini ditujukan terutama untuk admin ruang kerja yang menggunakan Katalog Unity untuk pertama kalinya.

Pada akhir artikel ini, Anda akan memiliki:

  • Ruang kerja yang diaktifkan untuk Katalog Unity.
  • Komputasi yang memiliki akses ke Unity Catalog.
  • Pengguna dengan izin untuk mengakses dan membuat objek di Unity Catalog.

Anda mungkin juga ingin meninjau artikel pengantar lainnya:

Catatan

Jika Anda ingin meningkatkan ruang kerja non-Unity-Catalog yang ada ke Unity Catalog, Anda mungkin mendapat manfaat dari menggunakan UCX, proyek Databricks Labs yang menyediakan serangkaian alur kerja dan utilitas untuk meningkatkan identitas, izin, dan tabel ke Katalog Unity. Lihat Menggunakan utilitas UCX untuk meningkatkan ruang kerja Anda ke Unity Catalog.

Gambaran umum pengaktifan Katalog Unity

Untuk menggunakan Unity Catalog, ruang kerja Azure Databricks Anda harus diaktifkan untuk Katalog Unity, yang berarti bahwa ruang kerja dilampirkan ke metastore Katalog Unity, kontainer tingkat atas untuk metadata Katalog Unity.

Cara admin menyiapkan Katalog Unity bergantung pada apakah ruang kerja diaktifkan secara otomatis untuk Katalog Unity atau memerlukan pengaktifan manual.

Pengaktifan otomatis Katalog Unity

Databricks mulai mengaktifkan ruang kerja baru untuk Unity Catalog secara otomatis pada 9 November 2023, dengan peluncuran berlangsung secara bertahap di seluruh akun. Ruang kerja yang diaktifkan secara otomatis memiliki properti berikut:

  • Metastore Katalog Unity yang disediakan secara otomatis (kecuali metastore Katalog Unity sudah ada untuk wilayah ruang kerja).

  • Hak istimewa default untuk admin ruang kerja, seperti kemampuan untuk membuat katalog atau koneksi database eksternal.

  • Tidak ada admin metastore (kecuali metastore Katalog Unity yang ada digunakan dan admin metastore sudah ditetapkan).

  • Tidak ada penyimpanan tingkat metastore untuk tabel terkelola dan volume terkelola (kecuali metastore Katalog Unity yang ada dengan penyimpanan tingkat metastore yang digunakan).

  • Katalog ruang kerja, yang, saat awalnya disediakan, dinamai sesuai dengan ruang kerja Anda.

    Semua pengguna di ruang kerja Anda dapat membuat aset dalam default skema dalam katalog ini. Secara default, katalog ini terikat ke ruang kerja Anda, yang berarti bahwa katalog ini hanya dapat diakses melalui ruang kerja Anda. Provisi otomatis katalog ruang kerja pada pembuatan ruang kerja diluncurkan secara bertahap di seluruh akun.

Konfigurasi default ini akan berfungsi dengan baik untuk sebagian besar ruang kerja, tetapi semuanya dapat dimodifikasi oleh admin ruang kerja atau admin akun. Misalnya, admin akun dapat menetapkan admin metastore dan membuat penyimpanan tingkat metastore, dan admin ruang kerja dapat mengubah nama dan akses katalog ruang kerja.

Bagaimana jika ruang kerja saya tidak diaktifkan untuk Katalog Unity secara otomatis?

Jika ruang kerja Anda tidak diaktifkan secara otomatis untuk Unity Catalog, admin akun atau admin metastore harus melampirkan ruang kerja secara manual ke metastore Unity Catalog di wilayah yang sama. Jika tidak ada metastore Unity Catalog di wilayah tersebut, admin akun harus membuatnya. Untuk petunjuknya, lihat Membuat metastore Unity Catalog.

Bagaimana cara mengetahui apakah ruang kerja saya diaktifkan untuk Unity Catalog?

Untuk mengonfirmasi apakah ruang kerja Anda diaktifkan untuk Unity Catalog, minta admin ruang kerja Azure Databricks atau admin akun untuk memeriksa Anda. Lihat juga Langkah 1: Konfirmasikan bahwa ruang kerja Anda diaktifkan untuk Katalog Unity.

Bagaimana cara mengetahui apakah ruang kerja saya menyertakan katalog ruang kerja ?

Beberapa ruang kerja baru memiliki katalog ruang kerja, yang, saat awalnya disediakan, dinamai sesuai dengan ruang kerja Anda. Untuk menentukan apakah ruang kerja Anda memilikinya, klik Ikon katalogKatalog di bar samping untuk membuka Catalog Explorer, dan cari katalog yang menggunakan nama ruang kerja Anda sebagai nama katalog.

Catatan

Katalog ruang kerja seperti katalog lain di Unity Catalog: admin ruang kerja dapat mengubah namanya, mengubah kepemilikannya, atau bahkan menghapusnya. Namun, segera setelah ruang kerja dibuat, ruang kerja tersebut menyandang nama ruang kerja

Sebelum Anda mulai

Sebelum memulai tugas yang dijelaskan dalam artikel ini, Anda harus membiasakan diri dengan konsep Unity Catalog dasar, termasuk metastores, peran admin, dan penyimpanan terkelola. Lihat Apakah itu Katalog Unity?.

Anda juga harus mengonfirmasi bahwa Anda memenuhi persyaratan berikut:

  • Ruang kerja Azure Databricks pada paket Premium.

  • Peran dan hak istimewa berikut, yang bergantung pada status ruang kerja Anda:

    • Admin ruang kerja: Jika ruang kerja Anda diaktifkan untuk Katalog Unity secara otomatis saat dibuat, Anda harus menjadi admin ruang kerja untuk menyelesaikan tugas yang diperlukan.

    • Admin akun: Jika ruang kerja Anda belum diaktifkan untuk Unity Catalog, admin akun harus melampirkan ruang kerja ke metastore.

      Jika tidak ada metastore Katalog Unity di wilayah yang sama dengan ruang kerja, admin akun juga harus membuat metastore Katalog Unity.

      Petunjuk untuk menentukan apakah metastore ada untuk wilayah ruang kerja Anda, bersama dengan instruksi untuk membuat metastore, ikuti artikel ini.

    Lihat Hak istimewa admin di Katalog Unity dan Pengaktifan Otomatis Katalog Unity.

Langkah 1: Konfirmasikan bahwa ruang kerja Anda diaktifkan untuk Unity Catalog

Dalam langkah ini, Anda menentukan apakah ruang kerja Anda sudah diaktifkan untuk Katalog Unity, di mana pengaktifan didefinisikan sebagai memiliki metastore Katalog Unity yang dilampirkan ke ruang kerja. Jika ruang kerja Anda tidak diaktifkan untuk Katalog Unity, Anda harus mengaktifkan ruang kerja Anda untuk Katalog Unity secara manual. Lihat Langkah berikutnya jika ruang kerja Anda tidak diaktifkan untuk Katalog Unity.

Untuk mengonfirmasi, lakukan salah satu hal berikut ini.

Gunakan konsol akun untuk mengonfirmasi pengaktifan Katalog Unity

  1. Sebagai admin akun Azure Databricks, masuk ke konsol akun.
  2. Klik Ikon Ruang KerjaRuang Kerja.
  3. Temukan ruang kerja Anda dan periksa kolom Metastore . Jika ada nama metastore, ruang kerja Anda dilampirkan ke metastore Katalog Unity dan karenanya diaktifkan untuk Katalog Unity.

Menjalankan kueri SQL untuk mengonfirmasi pengaktifan Katalog Unity

Jalankan kueri SQL berikut ini di editor kueri SQL atau buku catatan yang dilampirkan ke kluster yang menggunakan mode akses bersama atau pengguna tunggal. Lihat Mode akses. Tidak diperlukan peran admin.

SELECT CURRENT_METASTORE();

Jika kueri mengembalikan ID metastore seperti berikut ini, maka ruang kerja Anda dilampirkan ke metastore Katalog Unity dan karenanya diaktifkan untuk Katalog Unity.

Output metastore saat ini

Langkah berikutnya jika ruang kerja Anda tidak diaktifkan untuk Katalog Unity

Jika ruang kerja Anda tidak diaktifkan untuk Katalog Unity (dilampirkan ke metastore), langkah berikutnya bergantung pada apakah Anda sudah memiliki metastore Katalog Unity yang ditentukan untuk wilayah ruang kerja Anda:

  • Jika akun Anda sudah memiliki metastore Unity Catalog yang ditentukan untuk wilayah ruang kerja, Anda cukup melampirkan ruang kerja Anda ke metastore yang ada. Buka Aktifkan ruang kerja Anda untuk Katalog Unity.
  • Jika tidak ada metastore Katalog Unity yang ditentukan untuk wilayah ruang kerja Anda, Anda harus membuat metastore lalu melampirkan ruang kerja. Buka Membuat metastore Katalog Unity.

Saat ruang kerja Anda diaktifkan untuk Katalog Unity, buka langkah berikutnya.

Langkah 2: Tambahkan pengguna dan tetapkan peran admin ruang kerja

Pengguna yang membuat ruang kerja secara otomatis ditambahkan sebagai pengguna ruang kerja dengan peran admin ruang kerja (yaitu, pengguna di admins grup ruang kerja-lokal). Sebagai admin ruang kerja, Anda dapat menambahkan dan mengundang pengguna ke ruang kerja, dapat menetapkan peran admin ruang kerja ke pengguna lain, dan dapat membuat perwakilan layanan dan grup.

Admin akun juga memiliki kemampuan untuk menambahkan pengguna, perwakilan layanan, dan grup ke ruang kerja Anda. Mereka dapat memberikan peran admin akun dan admin metastore.

Untuk detailnya, lihat Mengelola pengguna.

Sebaiknya kelola akses pengguna ke Azure Databricks dengan menyiapkan provisi dari ID Microsoft Entra (sebelumnya Azure Active Directory). Untuk instruksi lengkap, lihat Menyinkronkan pengguna dan grup dari ID Microsoft Entra.

Langkah 3: Membuat kluster atau gudang SQL yang dapat digunakan pengguna untuk menjalankan kueri dan membuat objek

Untuk menjalankan beban kerja Unity Catalog, sumber daya komputasi harus mematuhi persyaratan keamanan tertentu. Sumber daya komputasi yang tidak sesuai tidak dapat mengakses data atau objek lain di Katalog Unity. Gudang SQL selalu mematuhi persyaratan Unity Catalog, tetapi beberapa mode akses kluster tidak. Lihat Mode akses.

Sebagai admin ruang kerja, Anda dapat memilih untuk membuat pembuatan komputasi dibatasi untuk admin atau memungkinkan pengguna membuat gudang dan kluster SQL mereka sendiri. Anda juga dapat membuat kebijakan kluster yang memungkinkan pengguna membuat kluster mereka sendiri, menggunakan spesifikasi sesuai Katalog Unity yang Anda terapi. Lihat Izin komputasi dan Membuat dan mengelola kebijakan komputasi.

Langkah 4: Memberikan hak istimewa kepada pengguna

Untuk membuat objek dan mengaksesnya di katalog dan skema Katalog Unity, pengguna harus memiliki izin untuk melakukannya. Bagian ini menjelaskan hak istimewa pengguna dan admin yang diberikan pada beberapa ruang kerja secara default dan menjelaskan cara memberikan hak istimewa tambahan.

Hak istimewa pengguna default

Beberapa ruang kerja memiliki hak istimewa pengguna default (non-admin) saat diluncurkan:

  • Jika ruang kerja Anda diluncurkan dengan katalog ruang kerja yang disediakan secara otomatis, semua pengguna ruang kerja dapat membuat objek dalam skema default katalog ruang kerja.

    Untuk mempelajari cara menentukan apakah ruang kerja Anda memiliki katalog ruang kerja, lihat Bagaimana cara mengetahui apakah ruang kerja saya menyertakan katalog ruang kerja?.

  • Jika ruang kerja Anda diaktifkan untuk Katalog Unity secara manual, ruang kerja tersebut memiliki katalog yang main disediakan secara otomatis.

    Pengguna ruang kerja memiliki USE CATALOG hak istimewa pada main katalog, yang tidak memberikan kemampuan untuk membuat atau memilih dari objek apa pun dalam katalog, tetapi merupakan prasyarat untuk bekerja dengan objek apa pun dalam katalog. Pengguna yang membuat metastore memiliki main katalog secara default dan dapat mentransfer kepemilikan dan memberikan akses ke pengguna lain.

    Jika penyimpanan metastore ditambahkan setelah metastore dibuat, tidak ada main katalog yang disediakan.

Ruang kerja lain tidak memiliki katalog yang dibuat secara default dan tidak ada hak istimewa pengguna non-admin yang diaktifkan secara default. Admin ruang kerja harus membuat katalog pertama dan memberi pengguna akses ke katalog tersebut dan objek di dalamnya. Lewati ke Langkah 5: Buat katalog dan skema baru sebelum Anda menyelesaikan langkah-langkah di bagian ini.

Hak istimewa admin default

Beberapa ruang kerja memiliki hak istimewa admin ruang kerja default saat diluncurkan:

  • Jika ruang kerja Anda diaktifkan untuk Katalog Unity secara otomatis:
    • Admin ruang kerja dapat membuat katalog dan objek baru di katalog baru, dan memberikan akses ke katalog dan objek tersebut.
    • Tidak ada admin metastore secara default.
    • Admin ruang kerja memiliki katalog ruang kerja (jika ada) dan dapat memberikan akses ke katalog tersebut dan objek apa pun dalam katalog tersebut.
  • Jika ruang kerja Anda diaktifkan untuk Katalog Unity secara manual:
    • Admin ruang kerja tidak memiliki hak istimewa Katalog Unity khusus secara default.
    • Admin metastore harus ada dan dapat membuat objek Katalog Unity apa pun dan dapat mengambil kepemilikan objek Katalog Unity apa pun.

Untuk daftar hak istimewa objek tambahan yang diberikan kepada admin ruang kerja di ruang kerja Unity Catalog yang diaktifkan secara otomatis, lihat Hak istimewa admin ruang kerja saat ruang kerja diaktifkan untuk Katalog Unity secara otomatis.

Memberikan hak istimewa

Untuk akses ke objek selain yang tercantum di bagian sebelumnya, pengguna istimewa harus memberikan akses tersebut.

Misalnya, untuk memberi grup kemampuan untuk membuat skema baru di my-catalog, pemilik katalog dapat menjalankan yang berikut ini di Editor SQL atau buku catatan:

GRANT CREATE SCHEMA ON my-catalog TO `data-consumers`;

Jika ruang kerja Anda diaktifkan untuk Katalog Unity secara otomatis, admin ruang kerja memiliki katalog ruang kerja dan dapat memberikan kemampuan untuk membuat skema baru:

GRANT CREATE SCHEMA ON <workspace-catalog> TO `data-consumers`;

Anda juga dapat memberikan dan mencabut hak istimewa menggunakan Catalog Explorer.

Penting

Anda tidak dapat memberikan hak istimewa ke ruang kerja-lokal users atau admins grup. Untuk memberikan hak istimewa pada grup, mereka harus menjadi grup tingkat akun.

Untuk detail tentang mengelola hak istimewa di Unity Catalog, lihat Mengelola hak istimewa di Unity Catalog.

Langkah 5: Membuat katalog dan skema baru

Untuk mulai menggunakan Katalog Unity, Anda harus memiliki setidaknya satu katalog yang ditentukan. Katalog adalah unit utama isolasi data dan organisasi di Unity Catalog. Semua skema dan tabel hidup dalam katalog, seperti halnya volume, tampilan, dan model.

Beberapa ruang kerja tidak memiliki katalog yang disediakan secara otomatis. Untuk menggunakan Katalog Unity, admin ruang kerja harus membuat katalog pertama untuk ruang kerja tersebut.

Ruang kerja lain memiliki akses ke katalog yang telah disediakan sebelumnya yang dapat diakses pengguna Anda untuk memulai (katalog ruang kerja atau main katalog, tergantung pada bagaimana ruang kerja Anda diaktifkan untuk Katalog Unity). Saat menambahkan lebih banyak data dan aset AI ke Azure Databricks, Anda dapat membuat katalog tambahan untuk mengelompokkan aset tersebut dengan cara yang memudahkan untuk mengatur data secara logis.

Untuk rekomendasi tentang cara terbaik menggunakan katalog dan skema untuk mengatur data dan aset AI Anda, lihat Praktik terbaik Katalog Unity.

Sebagai admin metastore, admin ruang kerja (hanya ruang kerja yang diaktifkan otomatis), atau pengguna lain dengan CREATE CATALOG hak istimewa, Anda dapat membuat katalog baru di metastore. Ketika Anda melakukannya, Anda harus:

  1. Buat penyimpanan terkelola untuk katalog baru.

    Penyimpanan terkelola adalah lokasi penyimpanan khusus di akun Azure Anda untuk tabel terkelola dan volume terkelola. Anda dapat menetapkan penyimpanan terkelola ke metastore, ke katalog, dan ke skema. Saat pengguna membuat tabel, data disimpan di lokasi penyimpanan yang terendah dalam hierarki. Misalnya, jika lokasi penyimpanan ditentukan untuk metastore dan katalog tetapi bukan skema, data disimpan di lokasi yang ditentukan untuk katalog.

    Databricks merekomendasikan agar Anda menetapkan penyimpanan terkelola di tingkat katalog, karena katalog biasanya mewakili unit logis isolasi data. Jika Anda nyaman dengan data di beberapa katalog yang berbagi lokasi penyimpanan yang sama, Anda dapat default ke lokasi penyimpanan tingkat metastore. Jika ruang kerja Anda diaktifkan untuk Katalog Unity secara otomatis, tidak ada penyimpanan tingkat metastore secara default. Admin akun memiliki opsi untuk mengonfigurasi penyimpanan tingkat metastore. Lihat Penyimpanan terkelola dan Menambahkan penyimpanan terkelola ke metastore yang sudah ada.

    Menetapkan penyimpanan terkelola ke katalog mengharuskan Anda membuat:

    • Kredensial penyimpanan.
    • Lokasi eksternal yang mereferensikan kredensial penyimpanan tersebut.

    Untuk pengenalan objek dan instruksi untuk membuatnya, lihat Koneksi ke penyimpanan objek cloud menggunakan Katalog Unity.

  2. Ikat katalog baru ke ruang kerja Anda jika Anda ingin membatasi akses dari ruang kerja lain yang berbagi metastore yang sama.

    Lihat Mengikat katalog ke satu atau beberapa ruang kerja.

  3. Berikan hak istimewa pada katalog.

Untuk instruksi mendetail, lihat Membuat dan mengelola katalog.

Contoh pembuatan katalog

Contoh berikut menunjukkan pembuatan katalog dengan penyimpanan terkelola, diikuti dengan memberikan SELECT hak istimewa pada katalog:

CREATE CATALOG IF NOT EXISTS mycatalog
  MANAGED LOCATION 'abfss://mycontainer@<myaccount.dfs.core.windows.net//depts/finance';

GRANT SELECT ON mycatalog TO `finance-team`;

Untuk contoh selengkapnya, termasuk instruksi untuk membuat katalog menggunakan Catalog Explorer, lihat Membuat dan mengelola katalog.

Buat grup skema

Skema mewakili pengelompokan yang lebih terperinci (seperti departemen atau proyek, misalnya) daripada katalog. Semua tabel dan objek Katalog Unity lainnya dalam katalog terkandung dalam skema. Sebagai pemilik katalog baru, Anda mungkin ingin membuat skema di katalog. Tetapi Anda mungkin ingin mendelegasikan kemampuan untuk membuat skema ke pengguna lain, dengan memberi mereka CREATE SCHEMA hak istimewa pada katalog.

Untuk instruksi mendetail, lihat Membuat dan mengelola skema (database).

(Opsional) Menetapkan peran admin metastore

Jika ruang kerja Anda diaktifkan untuk Katalog Unity secara otomatis, tidak ada peran admin metastore yang ditetapkan secara default. Admin metastore memiliki beberapa hak istimewa yang tidak dimiliki admin ruang kerja.

Anda mungkin ingin menetapkan admin metastore jika Anda perlu:

Untuk informasi terperinci tentang peran admin metastore dan instruksi untuk menetapkannya, lihat Menetapkan admin metastore.

Meningkatkan tabel di metastore Apache Hive Anda ke tabel Katalog Unity

Jika ruang kerja Anda berada dalam layanan sebelum diaktifkan untuk Katalog Unity, kemungkinan memiliki metastore Apache Hive yang berisi data yang ingin terus Anda gunakan. Databricks merekomendasikan agar Anda memigrasikan tabel yang dikelola oleh metastore Apache Hive ke metastore Unity Catalog.

Lihat Meningkatkan tabel dan tampilan Apache Hive ke Unity Catalog dan Menggunakan utilitas UCX untuk meningkatkan ruang kerja Anda ke Unity Catalog.

(Opsional) Terus bekerja dengan metastore Apache Hive Anda

Jika ruang kerja Anda memiliki metastore Apache Hive yang berisi data yang ingin terus Anda gunakan, dan Anda memilih untuk tidak mengikuti rekomendasi untuk memutakhirkan tabel yang dikelola oleh metastore Apache Hive ke metastore Unity Catalog, Anda dapat terus bekerja dengan data di metastore Apache Hive bersama data di metastore Unity Catalog.

Metastore Apache Hive diwakili dalam antarmuka Unity Catalog sebagai katalog bernama hive_metastore. Untuk terus bekerja dengan data di metastore Apache Hive Anda tanpa harus memperbarui kueri untuk menentukan hive_metastore katalog, Anda dapat mengatur katalog default ruang kerja ke hive_metastore. Lihat Mengelola katalog default.

Bergantung pada kapan ruang kerja Anda diaktifkan untuk Unity Catalog, katalog default mungkin hive_metastoresudah .

(Opsional) Membuat penyimpanan tingkat metastore

Meskipun Databricks merekomendasikan agar Anda membuat lokasi penyimpanan terkelola terpisah untuk setiap katalog di metastore Anda (dan Anda dapat melakukan hal yang sama untuk skema), Anda dapat memilih untuk membuat lokasi terkelola di tingkat metastore dan menggunakannya sebagai penyimpanan default untuk beberapa katalog dan skema.

Jika Anda menginginkan penyimpanan tingkat metastore, Anda juga harus menetapkan admin metastore. Lihat (Opsional) Menetapkan peran admin metastore.

Penyimpanan tingkat metastore diperlukan hanya jika berikut ini benar:

  • Anda ingin berbagi buku catatan menggunakan Berbagi Databricks-ke-Databricks Delta.
  • Anda menggunakan integrasi produk mitra Databricks yang bergantung pada lokasi penahapan pribadi (tidak digunakan lagi).

Untuk informasi selengkapnya tentang hierarki lokasi penyimpanan terkelola, lihat Data dipisahkan secara fisik dalam penyimpanan.

Untuk mempelajari cara menambahkan penyimpanan tingkat metastore ke metastore yang tidak memilikinya, lihat Menambahkan penyimpanan terkelola ke metastore yang sudah ada.

Catatan

Sebagian besar ruang kerja yang diaktifkan untuk Katalog Unity sebelum 9 November 2023 memiliki akar penyimpanan tingkat metastore.

Langkah berikutnya