Koneksi ke penyimpanan objek cloud menggunakan Katalog Unity

Artikel ini memberikan gambaran umum tentang konfigurasi koneksi penyimpanan cloud yang diperlukan untuk bekerja dengan data menggunakan Katalog Unity.

Databricks merekomendasikan penggunaan Unity Catalog untuk mengelola akses ke semua data yang disimpan dalam penyimpanan objek cloud. Unity Catalog menyediakan serangkaian alat untuk mengonfigurasi koneksi aman ke penyimpanan objek cloud. Koneksi ini menyediakan akses untuk menyelesaikan tindakan berikut:

  • Menyerap data mentah ke dalam lakehouse.
  • Membuat dan membaca tabel terkelola di penyimpanan cloud yang aman.
  • Mendaftarkan atau membuat tabel eksternal yang berisi data tabular.
  • Membaca dan menulis data yang tidak terstruktur.

Peringatan

Jangan beri pengguna akhir akses tingkat penyimpanan ke tabel atau volume terkelola Unity Catalog. Ini mengorbankan keamanan dan tata kelola data.

Memberi pengguna akses tingkat penyimpanan langsung ke penyimpanan lokasi eksternal di Azure Data Lake Storage Gen2 tidak mematuhi izin apa pun yang diberikan atau audit yang dikelola oleh Unity Catalog. Akses langsung akan melewati audit, silsilah data, dan fitur keamanan dan pemantauan lainnya dari Unity Catalog, termasuk kontrol akses dan izin. Anda bertanggung jawab untuk mengelola akses penyimpanan langsung melalui Azure Data Lake Storage Gen2 dan memastikan bahwa pengguna memiliki izin yang sesuai yang diberikan melalui Fabric.

Hindari semua skenario yang memberikan akses tulis tingkat penyimpanan langsung untuk wadah yang menyimpan tabel terkelola Databricks. Memodifikasi, menghapus, atau mengembangkan objek apa pun secara langsung melalui penyimpanan yang awalnya dikelola oleh Unity Catalog dapat mengakibatkan kerusakan data.

Catatan

Jika ruang kerja Anda dibuat sebelum 9 November 2023, ruang kerja tersebut mungkin tidak diaktifkan untuk Katalog Unity. Admin akun harus mengaktifkan Katalog Unity untuk ruang kerja Anda. Lihat Mengaktifkan ruang kerja untuk Unity Catalog.

Bagaimana Unity Catalog menyambungkan penyimpanan objek ke Azure Databricks?

Azure Databricks mendukung kontainer Azure Data Lake Storage Gen2 dan wadah Cloudflare R2 (Pratinjau Umum) sebagai lokasi penyimpanan cloud untuk data dan aset AI yang terdaftar di Unity Catalog. R2 ditujukan terutama untuk kasus penggunaan di mana Anda ingin menghindari biaya keluar data, seperti Berbagi Delta di seluruh cloud dan wilayah. Untuk informasi selengkapnya, lihat Menggunakan replika Cloudflare R2 atau memigrasikan penyimpanan ke R2.

Untuk mengelola akses ke penyimpanan cloud dasar yang menyimpan tabel dan volume, Unity Catalog menggunakan jenis objek berikut:

  • Kredensial penyimpanan mewakili mekanisme autentikasi dan otorisasi untuk mengakses data yang disimpan di penyewa cloud Anda, menggunakan identitas terkelola Azure atau perwakilan layanan untuk kontainer Azure Data Lake Storage Gen2 atau token API R2 untuk wadah Cloudflare R2. Setiap kredensial penyimpanan tunduk pada kebijakan kontrol-akses Katalog Unity yang mengontrol pengguna dan grup mana yang dapat mengakses kredensial. Jika pengguna tidak memiliki akses ke info masuk penyimpanan di Katalog Unity, permintaan akan gagal dan Katalog Unity tidak mencoba mengautentikasi ke penyewa cloud Anda atas nama pengguna. Izin untuk membuat kredensial penyimpanan hanya boleh diberikan kepada pengguna yang perlu menentukan lokasi eksternal. Lihat Membuat kredensial penyimpanan untuk menyambungkan ke Azure Data Lake Storage Gen2 dan Membuat kredensial penyimpanan untuk menyambungkan ke Cloudflare R2.

  • Lokasi eksternal adalah objek yang menggabungkan jalur penyimpanan cloud dengan info masuk penyimpanan yang mengizinkan akses ke jalur penyimpanan cloud. Setiap lokasi penyimpanan tunduk pada kebijakan kontrol akses Katalog Unity yang mengontrol pengguna dan grup mana yang dapat mengakses info masuk. Jika pengguna tidak memiliki akses ke lokasi penyimpanan di Katalog Unity, permintaan akan gagal dan Katalog Unity tidak mencoba mengautentikasi ke penyewa cloud Anda atas nama pengguna. Izin untuk membuat dan menggunakan lokasi eksternal hanya boleh diberikan kepada pengguna yang perlu membuat tabel eksternal, volume eksternal, atau lokasi penyimpanan terkelola. Lihat Membuat lokasi eksternal untuk menyambungkan penyimpanan cloud ke Azure Databricks.

    Lokasi eksternal digunakan baik untuk aset data eksternal, seperti tabel eksternal dan volume eksternal, dan untuk aset data terkelola , seperti tabel terkelola dan volume terkelola. Untuk informasi selengkapnya tentang perbedaannya, lihat Tabel dan Volume.

    Saat lokasi eksternal digunakan untuk menyimpan tabel terkelola dan volume terkelola, lokasi tersebut disebut lokasi penyimpanan terkelola. Lokasi penyimpanan terkelola dapat ada di tingkat metastore, katalog, atau skema. Databricks merekomendasikan untuk mengonfigurasi lokasi penyimpanan terkelola di tingkat katalog. Jika Anda memerlukan isolasi yang lebih terperinci, Anda dapat menentukan lokasi penyimpanan terkelola di tingkat skema. Ruang kerja yang diaktifkan untuk Katalog Unity secara otomatis tidak memiliki penyimpanan tingkat metastore secara default, tetapi Anda dapat menentukan lokasi penyimpanan terkelola di tingkat metastore untuk menyediakan penyimpanan default ketika tidak ada penyimpanan tingkat katalog yang ditentukan. Ruang kerja yang diaktifkan untuk Katalog Unity secara manual menerima lokasi penyimpanan terkelola tingkat metastore secara default. Lihat Menentukan lokasi penyimpanan terkelola di Katalog Unity dan praktik terbaik Katalog Unity.

Volume adalah objek yang dapat diamankan yang harus digunakan sebagian besar pengguna Azure Databricks untuk berinteraksi langsung dengan data non-tabular dalam penyimpanan objek cloud. Lihat Membuat dan bekerja dengan volume.

Catatan

Meskipun Unity Catalog mendukung akses berbasis jalur ke tabel eksternal dan volume eksternal menggunakan URI penyimpanan cloud, Databricks merekomendasikan agar pengguna membaca dan menulis semua tabel Unity Catalog menggunakan nama tabel dan mengakses data dalam volume menggunakan /Volumes jalur.

Langkah berikutnya

Jika Anda baru saja mulai menggunakan Unity Catalog sebagai admin, lihat Menyiapkan dan mengelola Katalog Unity.

Jika Anda adalah pengguna baru dan ruang kerja Anda sudah diaktifkan untuk Katalog Unity, lihat Tutorial: Membuat tabel pertama Anda dan memberikan hak istimewa.