Mulai menggunakan Katalog Unity

Artikel ini menjelaskan cara mulai menggunakan Unity Catalog untuk mengelola data di ruang kerja Azure Databricks Anda. Ini ditujukan terutama untuk admin ruang kerja yang menggunakan Katalog Unity untuk pertama kalinya. Untuk menyiapkan Unity Catalog menggunakan penyedia Databricks Terraform, lihat Mengotomatiskan penyiapan Katalog Unity menggunakan Terraform.

Pada akhir artikel ini, Anda akan memiliki:

  • Ruang kerja yang telah diaktifkan untuk Katalog Unity.
  • Komputasi yang memiliki akses ke Unity Catalog.
  • Pengguna dengan izin untuk mengakses dan membuat objek di Unity Catalog.

Anda juga dapat meninjau artikel pengantar lainnya:

Note

Jika Anda ingin meningkatkan ruang kerja non-Unity-Catalog yang ada ke Unity Catalog, Anda mungkin mendapat manfaat dari menggunakan UCX, proyek Databricks Labs yang menyediakan serangkaian alur kerja dan utilitas untuk meningkatkan identitas, izin, dan tabel ke Katalog Unity. Lihat Menggunakan utilitas UCX untuk meningkatkan ruang kerja Anda ke Unity Catalog.

Bagaimana cara mulai menggunakan Unity Catalog?

Jalur yang Anda ambil untuk mulai menggunakan Unity Catalog bergantung pada ruang kerja Anda.

Untuk ruang kerja baru:

Di sebagian besar akun, Unity Catalog diaktifkan secara default saat Anda membuat ruang kerja. Anda dapat mulai menggunakan Unity Catalog dengan pengaturan default. Namun, ada konfigurasi opsional yang mungkin ingin Anda aktifkan. Halaman ini memberikan gambaran umum tentang keduanya.

Untuk ruang kerja yang ada:

  1. Pastikan ruang kerja Anda diaktifkan untuk Katalog Unity

    Jika ruang kerja Anda dibuat sebelum pengaktifan otomatis Katalog Unity, seorang administrator akun harus mengaktifkan Katalog Unity. Pengaktifan Katalog Unity pada dasarnya berarti membuat metastore Unity Catalog di wilayah ruang kerja Anda dan mengonfirmasi bahwa grup apa pun yang telah Anda buat di ruang kerja dikonversi ke grup tingkat akun.

  2. Tingkatkan tabel yang terdaftar di metastore Hive ruang kerja-lokal Anda ke Katalog Unity.

    Anda dapat meningkatkan secara bertahap dengan memfederasi tabel yang terdaftar pada metastore Apache Hive sehingga dapat diatur dan diakses menggunakan antarmuka serta sintaks Katalog Unity.

    Lihat Mutakhirkan ruang kerja Azure Databricks ke Unity Catalog.

Pengaktifan Otomatis Katalog Unity

Databricks mulai mengaktifkan ruang kerja baru untuk Unity Catalog secara otomatis pada 9 November 2023, dengan peluncuran berlangsung secara bertahap di seluruh akun. Ruang kerja yang diaktifkan secara otomatis memiliki properti berikut:

  • Metastore Katalog Unity yang disediakan secara otomatis (kecuali metastore Katalog Unity sudah ada untuk wilayah ruang kerja dan metastore diaktifkan untuk penetapan ruang kerja otomatis).

  • Hak istimewa default untuk admin ruang kerja, seperti kemampuan untuk membuat katalog atau koneksi database eksternal.

  • Tanpa ada administrator metastore (kecuali jika metastore dari Katalog Unity yang sudah ada digunakan dan administrator metastore telah ditetapkan).

  • Tidak ada penyimpanan setingkat metastore untuk tabel terkelola dan volume terkelola (kecuali jika menggunakan metastore Katalog Unity yang ada dengan penyimpanan setingkat metastore).

  • Katalog ruang kerja , yang, ketika awalnya disediakan, dinamai sesuai dengan ruang kerja Anda.

    Semua pengguna di ruang kerja Anda dapat membuat aset dalam skema default di katalog ini. Secara default, katalog ini terikat ke ruang kerja Anda, yang berarti bahwa katalog ini hanya dapat diakses melalui ruang kerja Anda. Provisi otomatis katalog ruang kerja saat pembuatan ruang kerja sedang diluncurkan secara bertahap di seluruh akun.

    Katalog ruang kerja didukung oleh lokasi penyimpanan terkelola. Ini memungkinkan Anda membuat tabel dan volume terkelola di katalog ruang kerja. Lokasi penyimpanan terkelola terkandung dalam lokasi eksternal dengan kredensial penyimpanan yang hanya dilingkupkan ke jalur tertentu untuk katalog ruang kerja. Kredensial penyimpanan ini tidak dapat mengakses jalur terbatas lainnya di akun penyimpanan ruang kerja, seperti data sistem akar atau ruang kerja DBFS. Hal ini untuk memastikan keamanan dan mencegah akses tidak sah ke data ruang kerja sensitif.

Konfigurasi default ini akan berfungsi dengan baik untuk sebagian besar ruang kerja, tetapi semuanya dapat dimodifikasi oleh admin ruang kerja atau admin akun. Misalnya, admin akun dapat menetapkan admin metastore dan membuat penyimpanan tingkat metastore, dan admin ruang kerja dapat mengubah nama dan akses katalog ruang kerja.

Bagaimana jika ruang kerja saya tidak diaktifkan untuk Katalog Unity secara otomatis?

Jika ruang kerja Anda tidak diaktifkan secara otomatis untuk Unity Catalog, admin akun atau admin metastore harus melampirkan ruang kerja secara manual ke metastore Unity Catalog di wilayah yang sama. Jika tidak ada metastore Unity Catalog di wilayah tersebut, admin akun harus membuatnya. Untuk petunjuknya, lihat Membuat metastore Unity Catalog.

Bagaimana cara mengetahui apakah ruang kerja saya diaktifkan untuk Unity Catalog?

Untuk mengonfirmasi apakah ruang kerja Anda diaktifkan untuk Unity Catalog, mintalah admin ruang kerja Azure Databricks atau admin akun untuk memeriksanya untuk Anda. Lihat juga Langkah 1: Konfirmasikan bahwa ruang kerja Anda diaktifkan untuk Unity Catalog.

Bagaimana cara mengetahui apakah ruang kerja saya menyertakan katalog ruang kerja ?

Beberapa ruang kerja baru memiliki katalog ruang kerja , yang, ketika awalnya disediakan, dinamai sesuai dengan ruang kerja Anda. Untuk menentukan apakah ruang kerja Anda memilikinya, klik Ikon data.Katalog di bar samping untuk membuka Catalog Explorer, dan cari katalog yang menggunakan nama ruang kerja Anda sebagai nama katalog.

Note

Katalog ruang kerja seperti katalog lain di Unity Catalog: admin ruang kerja dapat mengubah namanya, mengubah kepemilikannya, atau bahkan menghapusnya. Namun, segera setelah ruang kerja dibuat, ruang kerja tersebut menyandang nama ruang kerja

Sebelum Anda mulai

Sebelum memulai tugas yang dijelaskan dalam artikel ini, Anda harus membiasakan diri dengan konsep Unity Catalog dasar, termasuk metastores, peran admin, dan penyimpanan terkelola. Lihat Apa itu Katalog Unity?.

Anda juga harus mengonfirmasi bahwa Anda memenuhi persyaratan berikut:

  • Ruang kerja Azure Databricks pada paket Premium.

  • Peran dan hak istimewa berikut, yang bergantung pada status ruang kerja Anda:

    • Admin ruang kerja: Jika ruang kerja Anda diaktifkan untuk Katalog Unity secara otomatis saat dibuat, Anda harus menjadi admin ruang kerja untuk menyelesaikan tugas yang diperlukan.

    • Admin akun: Jika ruang kerja Anda belum diaktifkan untuk Unity Catalog, admin akun harus melampirkan ruang kerja ke metastore.

      Apabila tidak terdapat metastore Katalog Unity di wilayah yang sama dengan ruang kerja, maka admin akun harus membuat metastore Katalog Unity tersebut.

      Petunjuk untuk menentukan apakah metastore ada untuk wilayah ruang kerja Anda, bersama dengan instruksi untuk membuat metastore, ikuti artikel ini.

    Lihat Hak istimewa Admin dalam Katalog Unity dan Pengaktifan otomatis Katalog Unity.

Langkah 1: Konfirmasikan bahwa ruang kerja Anda diaktifkan untuk Katalog Unity

Dalam langkah ini, Anda menentukan apakah ruang kerja Anda sudah diaktifkan untuk Unity Catalog, yang mana pengaktifan didefinisikan sebagai ketika ruang kerja memiliki metastore Unity Catalog yang terlampir. Jika ruang kerja Anda tidak diaktifkan untuk Katalog Unity, Anda harus mengaktifkan ruang kerja Anda untuk Katalog Unity secara manual. Lihat Mutakhirkan ruang kerja Azure Databricks ke Unity Catalog.

Untuk mengonfirmasi, lakukan salah satu hal berikut ini.

Gunakan konsol akun untuk mengonfirmasi pengaktifan Katalog Unity

  1. Sebagai admin akun Azure Databricks, masuk ke konsol akun.
  2. Klik ikon Ruang Kerja.Ruang kerja.
  3. Temukan ruang kerja Anda dan periksa kolom Metastore. Jika ada nama metastore, ruang kerja Anda terhubung dengan metastore Unity Catalog dan karenanya diaktifkan untuk Unity Catalog.

Menjalankan kueri SQL untuk mengonfirmasi pengaktifan Katalog Unity

Jalankan kueri SQL berikut ini di editor kueri SQL atau buku catatan yang dilampirkan ke sumber daya komputasi berkemampuan Katalog Unity. Tidak diperlukan peran admin.

SELECT CURRENT_METASTORE();

Jika kueri mengembalikan ID metastore seperti ini, maka ruang kerja Anda dilampirkan ke metastore Katalog Unity dan dengan demikian diaktifkan untuk Katalog Unity.

Output metastore saat ini

Langkah berikutnya jika ruang kerja Anda tidak diaktifkan untuk Katalog Unity

Jika ruang kerja Anda tidak diaktifkan untuk Katalog Unity (dilampirkan ke metastore), ikuti instruksi di Mutakhirkan ruang kerja Azure Databricks ke Katalog Unity.

Saat ruang kerja Anda diaktifkan untuk Katalog Unity, buka langkah berikutnya.

Langkah 2: Tambahkan pengguna dan tetapkan peran admin ruang kerja

Pengguna yang membuat ruang kerja secara otomatis ditambahkan sebagai pengguna ruang kerja dengan peran admin ruang kerja (yaitu, pengguna di admins grup ruang kerja-lokal). Sebagai admin ruang kerja, Anda dapat menambahkan dan mengundang pengguna ke ruang kerja, dapat menetapkan peran admin ruang kerja ke pengguna lain, dan dapat membuat perwakilan layanan dan grup.

Admin akun juga memiliki kemampuan untuk menambahkan pengguna, perwakilan layanan, dan grup ke ruang kerja Anda. Mereka dapat memberikan peran admin akun dan admin metastore.

Untuk detailnya, lihat Mengelola pengguna.

Akan lebih mudah mengelola akses pengguna ke Azure Databricks dengan menyiapkan penyediaan dari Microsoft Entra ID. Untuk petunjuk lengkap, lihat Sync pengguna dan grup dari Microsoft Entra ID menggunakan SCIM.

Langkah 3: Membuat kluster atau gudang SQL yang dapat digunakan pengguna untuk menjalankan kueri dan membuat objek

Untuk menjalankan beban kerja Unity Catalog, sumber daya komputasi harus mematuhi persyaratan keamanan tertentu. Sumber daya komputasi yang tidak sesuai tidak dapat mengakses data atau objek lain di Katalog Unity. Gudang SQL selalu mematuhi persyaratan Unity Catalog, tetapi beberapa mode akses kluster tidak. Lihat Mode akses.

Sebagai admin ruang kerja, Anda dapat memilih untuk membuat pembuatan komputasi dibatasi untuk admin atau memungkinkan pengguna membuat gudang dan kluster SQL mereka sendiri. Anda juga dapat membuat kebijakan kluster yang memungkinkan pengguna membuat kluster mereka sendiri, menggunakan spesifikasi yang sesuai dengan Unity Catalog yang Anda tetapkan. Lihat Izin komputasi dan Membuat dan mengelola kebijakan komputasi.

Langkah 4: Memberikan hak istimewa kepada pengguna

Untuk membuat objek dan mengaksesnya di katalog dan skema Katalog Unity, pengguna harus memiliki izin untuk melakukannya. Bagian ini menjelaskan hak istimewa pengguna dan admin yang diberikan pada beberapa ruang kerja secara default dan menjelaskan cara memberikan hak istimewa tambahan.

Hak istimewa pengguna default

Beberapa ruang kerja memiliki hak istimewa pengguna default (non-admin) saat diluncurkan:

  • Jika ruang kerja Anda diluncurkan dengan katalog ruang kerja yang disediakan secara otomatis, semua pengguna ruang kerja dapat membuat objek dalam skema default katalog ruang kerja.

    Untuk mempelajari cara menentukan apakah ruang kerja Anda memiliki katalog ruang kerja, lihat Bagaimana cara mengetahui apakah ruang kerja saya menyertakan katalog ruang kerja?.

  • Jika ruang kerja Anda diaktifkan untuk Katalog Unity secara manual, ruang kerja tersebut memiliki katalog main yang disediakan secara otomatis.

    Pengguna ruang kerja memiliki USE CATALOG hak istimewa pada main katalog. Ini tidak memberikan kemampuan untuk membuat atau memilih dari objek apa pun dalam katalog, tetapi merupakan syarat wajib untuk bekerja dengan objek apa pun dalam katalog. Pengguna yang membuat metastore memiliki katalog main secara default dan dapat mentransfer kepemilikan dan memberikan akses ke pengguna lain.

    Jika penyimpanan metastore ditambahkan setelah metastore selesai dibuat, maka tidak ada katalog main yang disediakan.

Ruang kerja lain tidak memiliki katalog yang dibuat secara default dan tidak ada hak istimewa pengguna non-admin yang diaktifkan secara default. Admin ruang kerja harus membuat katalog pertama dan memberi pengguna akses ke katalog tersebut dan objek di dalamnya. Lewati ke Langkah 5: Buat katalog dan skema baru sebelum Anda menyelesaikan langkah-langkah di bagian ini.

Hak akses admin default

Beberapa ruang kerja memiliki hak istimewa admin ruang kerja default saat diluncurkan:

  • Jika ruang kerja Anda telah diaktifkan untuk Unity Catalog secara otomatis:
    • Admin ruang kerja dapat membuat katalog dan objek baru di katalog baru, dan memberikan akses ke katalog dan objek tersebut.
    • Tidak ada admin metastore secara default.
    • Admin ruang kerja memiliki katalog ruang kerja (jika ada) dan dapat memberikan akses ke katalog tersebut dan objek apa pun dalam katalog tersebut.
  • Jika ruang kerja Anda telah diaktifkan secara manual untuk Katalog Unity:
    • Admin ruang kerja tidak memiliki hak istimewa Katalog Unity khusus secara default.
    • Admin metastore harus ada dan dapat membuat objek Katalog Unity apa pun dan dapat mengambil kepemilikan objek Katalog Unity apa pun.

Untuk daftar hak istimewa objek tambahan yang diberikan kepada admin ruang kerja di ruang kerja yang diaktifkan secara otomatis untuk Unity Catalog, lihat hak istimewa admin ruang kerja saat ruang kerja diaktifkan untuk Unity Catalog secara otomatis.

Memberikan hak istimewa

Untuk akses ke objek selain yang tercantum di bagian sebelumnya, pengguna istimewa harus memberikan akses tersebut.

Misalnya, untuk memberi grup kemampuan untuk membuat skema baru di my-catalog, pemilik katalog dapat menjalankan yang berikut ini di Editor SQL atau buku catatan:

GRANT CREATE SCHEMA ON my-catalog TO `data-consumers`;

Jika ruang kerja Anda diaktifkan untuk Katalog Unity secara otomatis, admin ruang kerja memiliki katalog ruang kerja dan dapat memberikan kemampuan untuk membuat skema baru:

GRANT CREATE SCHEMA ON <workspace-catalog> TO `data-consumers`;

Anda juga dapat memberikan dan mencabut hak istimewa menggunakan Catalog Explorer.

Important

Anda tidak dapat memberikan hak akses ke grup ruang kerja-lokal users atau admins. Untuk memberikan hak istimewa kepada grup, mereka harus menjadi grup di tingkat akun.

Untuk detail tentang mengelola hak istimewa di Unity Catalog, lihat Mengelola hak istimewa di Unity Catalog.

Langkah 5: Membuat katalog dan skema baru

Untuk mulai menggunakan Katalog Unity, Anda harus memiliki setidaknya satu katalog yang ditentukan. Katalog adalah unit utama isolasi data dan organisasi di Unity Catalog. Semua skema dan tabel hidup dalam katalog, seperti halnya volume, tampilan, dan model.

Beberapa ruang kerja tidak memiliki katalog yang disediakan secara otomatis. Untuk menggunakan Katalog Unity, admin ruang kerja harus membuat katalog pertama untuk ruang kerja tersebut.

Ruang kerja lain memiliki akses ke katalog yang telah disediakan sebelumnya yang dapat diakses pengguna Anda untuk memulai (katalog ruang kerja atau katalog main, tergantung pada bagaimana ruang kerja Anda diaktifkan untuk Katalog Unity). Saat menambahkan lebih banyak data dan aset AI ke Azure Databricks, Anda dapat membuat katalog tambahan untuk mengelompokkan aset tersebut dengan cara yang memudahkan untuk mengatur data secara logis.

Untuk rekomendasi tentang cara terbaik menggunakan katalog dan skema untuk mengatur data dan aset AI Anda, lihat praktik terbaik Unity Catalog.

Sebagai admin metastore, admin ruang kerja (hanya ruang kerja yang diaktifkan otomatis), atau pengguna lain dengan hak istimewa CREATE CATALOG, Anda dapat membuat katalog baru di metastore. Ketika Anda melakukannya, Anda harus:

  1. Buat penyimpanan terkelola untuk katalog baru.

    Penyimpanan terkelola adalah lokasi penyimpanan khusus di akun Azure Anda untuk tabel terkelola dan volume terkelola. Anda dapat menetapkan penyimpanan terkelola ke metastore, ke katalog, dan ke skema. Saat pengguna membuat tabel, data disimpan di lokasi penyimpanan yang terendah dalam hierarki. Misalnya, jika lokasi penyimpanan ditentukan untuk metastore dan katalog tetapi bukan skema, data disimpan di lokasi yang ditentukan untuk katalog.

    Databricks merekomendasikan agar Anda menetapkan penyimpanan terkelola di tingkat katalog, karena katalog biasanya mewakili unit logis isolasi data. Jika Anda nyaman dengan data di beberapa katalog yang berbagi lokasi penyimpanan yang sama, Anda dapat default ke lokasi penyimpanan tingkat metastore. Jika ruang kerja Anda diaktifkan untuk Katalog Unity secara otomatis, tidak ada penyimpanan pada tingkat metastore secara default. Admin akun memiliki opsi untuk mengonfigurasi penyimpanan tingkat metastore. Lihat Tentukan lokasi penyimpanan terkelola di Unity Catalog dan Tambahkan penyimpanan terkelola ke metastore yang sudah ada.

    Menetapkan penyimpanan terkelola ke katalog mengharuskan Anda membuat:

    • Sebuah kredensial penyimpanan.
    • Lokasi eksternal yang mereferensikan kredensial penyimpanan tersebut.

    Untuk pengenalan objek dan instruksi untuk membuatnya, lihat Menyambungkan ke penyimpanan objek cloud menggunakan Katalog Unity.

  2. Ikat katalog baru ke ruang kerja Anda jika Anda ingin membatasi akses dari ruang kerja lain yang berbagi metastore yang sama.

    Lihat Membatasi akses katalog ke ruang kerja tertentu.

  3. Berikan hak istimewa pada katalog.

Untuk petunjuk terperinci, lihat Membuat katalog.

Contoh pembuatan katalog

Contoh berikut menunjukkan pembuatan katalog dengan penyimpanan terkelola, diikuti dengan memberikan hak istimewa SELECT pada katalog:

CREATE CATALOG IF NOT EXISTS mycatalog
  MANAGED LOCATION 'abfss://mycontainer@<myaccount.dfs.core.windows.net//depts/finance';

GRANT SELECT ON mycatalog TO `finance-team`;

Untuk contoh selengkapnya, termasuk instruksi untuk membuat katalog menggunakan Catalog Explorer, lihat Membuat katalog.

Buat skema

Skema mewakili pengelompokan yang lebih terperinci (seperti departemen atau proyek, misalnya) daripada katalog. Semua tabel dan objek Katalog Unity lainnya dalam katalog terkandung dalam skema. Sebagai pemilik katalog baru, Anda mungkin ingin membuat skema di katalog. Tetapi Anda mungkin ingin mendelegasikan kemampuan untuk membuat skema kepada pengguna lain, dengan memberi mereka hak istimewa CREATE SCHEMA pada katalog.

Untuk instruksi mendetail, lihat Membuat skema.

(Opsional) Menetapkan peran admin metastore

Jika ruang kerja Anda diaktifkan untuk Katalog Unity secara otomatis, tidak ada peran admin metastore yang ditetapkan secara default. Admin metastore memiliki beberapa hak istimewa yang tidak dimiliki admin ruang kerja.

Anda mungkin ingin menetapkan admin metastore jika Anda perlu:

Untuk informasi terperinci tentang peran admin metastore dan instruksi untuk menetapkannya, lihat Menetapkan admin metastore.

Tingkatkan tabel di Apache Hive metastore Anda ke tabel Unity Catalog

Jika ruang kerja Anda telah digunakan sebelum diaktifkan untuk Unity Catalog, kemungkinan besar memiliki metastore Apache Hive yang berisi data yang ingin Anda gunakan terus. Databricks merekomendasikan agar Anda memigrasikan tabel yang dikelola oleh metastore Apache Hive ke metastore Unity Catalog.

Lihat Mutakhirkan ruang kerja Azure Databricks ke Unity Catalog.

(Opsional) Mengintegrasikan metastore Apache Hive Anda agar terus dapat digunakan

Jika ruang kerja Anda memiliki metastore Apache Hive yang berisi data yang ingin terus Anda gunakan, dan Anda memilih untuk tidak mengikuti rekomendasi untuk memutakhirkan semua tabel yang dikelola oleh metastore Apache Hive ke metastore Unity Catalog, Anda dapat terus bekerja dengan data di metastore Apache Hive dengan menggabungkannya sebagai katalog asing di Katalog Unity. Federasi Apache Hive metastore dapat menjadi langkah yang berguna dalam proses migrasi ke Unity Catalog. Ini memungkinkan migrasi inkremental tanpa adaptasi kode, dengan beberapa beban kerja Anda terus menggunakan data yang terdaftar di metastore Apache Hive Anda sementara yang lain dimigrasikan.

Lihat federasi metastore Hive: aktifkan Unity Catalog untuk mengatur tabel yang terdaftar dalam metastore Hive.

(Opsional) Membuat penyimpanan tingkat metastore

Meskipun Databricks merekomendasikan agar Anda membuat lokasi penyimpanan terkelola terpisah untuk setiap katalog di metastore Anda (dan Anda dapat melakukan hal yang sama untuk skema), Anda dapat memilih untuk membuat lokasi terkelola di tingkat metastore dan menggunakannya sebagai penyimpanan untuk beberapa katalog dan skema.

Jika Anda menginginkan penyimpanan tingkat metastore, Anda juga harus menetapkan admin metastore, lihat (Opsional) Menetapkan peran admin metastore.

Penyimpanan tingkat metastore diperlukan hanya jika Anda menggunakan integrasi produk mitra Databricks yang bergantung pada lokasi penyimpanan sementara pribadi (ditinggalkan).

Untuk informasi selengkapnya tentang hierarki lokasi penyimpanan terkelola, lihat Hierarki lokasi penyimpanan terkelola.

Untuk mempelajari cara menambahkan penyimpanan tingkat metastore ke metastore yang tidak memilikinya, lihat Menambahkan penyimpanan terkelola ke metastore yang ada.

Note

Sebagian besar ruang kerja yang diaktifkan untuk Katalog Unity sebelum 9 November 2023 memiliki akar penyimpanan tingkat metastore secara default.

Langkah selanjutnya