Bagikan melalui


Tata kelola data dengan Azure Databricks

Tata kelola data adalah kerangka kerja kebijakan, proses, peran, dan kontrol teknis yang memastikan data organisasi Anda aman, dapat dipercaya, dan digunakan secara bertanggung jawab sepanjang siklus hidupnya. Tata kelola data yang efektif memungkinkan Anda mempertahankan kualitas data, melindungi informasi sensitif, memenuhi persyaratan peraturan, dan memaksimalkan nilai aset data Anda.

Komponen utama tata kelola data meliputi:

  • Kontrol dan keamanan akses: Menerapkan izin dan langkah-langkah keamanan yang halus untuk melindungi data dari akses yang tidak sah sambil mengaktifkan penggunaan yang sesuai.
  • Silsilah data dan pengamatan: Melacak aliran dan transformasi data untuk memahami asal data, dependensi, dan pola penggunaan.
  • Manajemen kualitas data: Memastikan data akurat, lengkap, konsisten, dan andal untuk pengambilan keputusan dan analitik.
  • Manajemen metadata: Menangkap dan memelihara informasi tentang aset data untuk meningkatkan penemuan dan pemahaman.
  • Penegakan kepatuhan: Memenuhi persyaratan peraturan dan kebijakan organisasi untuk privasi, retensi, dan penggunaan data.

Halaman ini berfokus pada tata kelola data menggunakan Unity Catalog di Azure Databricks. Topik keamanan terkait, seperti autentikasi, konfigurasi jaringan, enkripsi data, dan kepatuhan privasi, tercakup dalam ringkasan Keamanan dan kepatuhan dan Kepatuhan.

Model tata kelola data Unity Catalog

Unity Catalog adalah katalog data terpusat yang menyediakan tata kelola untuk data terstruktur dan tidak terstruktur dalam beberapa format. Ini menawarkan kontrol akses yang terperinci dan tata kelola aset AI seperti model pembelajaran mesin. Unity Catalog adalah sumber terbuka dan mendukung beberapa platform. Ini diintegrasikan secara mendalam ke dalam Azure Databricks.

Unity Catalog adalah solusi tata kelola data lengkap yang menyediakan hal berikut:

  • Penyatuan data: tampilan terpadu dari semua data dan aset AI, di seluruh platform, mengurangi duplikasi dan perulangan.
  • Kontrol akses data: alat untuk memastikan bahwa data dapat diakses, tetapi hanya untuk pengguna yang tepat.
  • Ketercapaian Data: alat yang memudahkan pencarian data yang Anda butuhkan.
  • Kualitas data: alat untuk memastikan bahwa data yang akurat, lengkap, konsisten, dan aman sepanjang siklus hidupnya.
  • Kolaborasi dan berbagi data: alat untuk berbagi data dengan aman tidak hanya dalam organisasi Anda tetapi di seluruh batas organisasi dan platform.
  • Audit: alat yang menangkap siapa yang menggunakan data dan caranya.

Halaman ini menjelaskan bagaimana organisasi Anda dapat memenuhi kebutuhan ini menggunakan Unity Catalog di Azure Databricks.

Kontrol akses data

Untuk memastikan bahwa pengguna hanya mengakses data yang seharusnya, Unity Catalog menyediakan model hak istimewa hierarkis yang memungkinkan Anda memberi pengguna, grup, dan perwakilan layanan akses ke data dan aset AI dari tingkat akun ke baris dan kolom tabel. Anda dapat mengontrol akses ke aset yang disimpan dalam penyimpanan Unity Catalog khusus atau disimpan di platform lain, seperti penyimpanan cloud atau sistem database: kuncinya adalah Bahwa Unity Catalog memberi pengguna Anda akses potensial ke semua data Anda, di mana pun itu, dari dalam Azure Databricks, dan bahwa Unity Catalog mengontrol akses mereka dan melacak penggunaan data mereka.

Tugas Deskripsi
Mengelola izin Pelajari tentang objek yang dapat diamankan yang dikelola Katalog Unity dan cara mengontrol akses ke objek tersebut.
Mengelola kontrol akses berbasis atribut (ABAC) Pelajari cara mengontrol akses ke data menggunakan ABAC di Unity Catalog.
Mengelola identitas Pelajari cara mengelola identitas dalam konteks Katalog Unity.
Kontrol akses terperinci Pelajari cara mengontrol akses ke data tabel menggunakan filter baris dan masker kolom.
Mengelola akses ke penyimpanan eksternal dan platform data Pelajari cara mengontrol akses ke penyimpanan cloud, platform data eksternal, dan layanan non-data eksternal menggunakan Katalog Unity.
Mengelola akses dari platform eksternal Pelajari bagaimana Unity Catalog dapat mengelola akses ke data Anda dari platform eksternal yang menggunakan Apache Iceberg atau API Unity Catalog sumber terbuka.

Penemuan data

Azure Databricks dan Unity Catalog menyediakan alat berikut untuk membantu pengguna menemukan data yang mereka butuhkan:

Fitur Deskripsi
Penjelajah Katalog Telusuri dan cari data dan aset AI menggunakan nama aset dan metadata seperti komentar dan tag.
Browser katalog Temukan data dan aset AI menggunakan browser yang disertakan dalam notebook dan editor kueri SQL. Lihat Menavigasi buku catatan Databricks dan editor file dan Menulis kueri dan menjelajahi data di editor SQL baru.
Komentar yang dihasilkan AI Buat dokumentasi data dan aset AI secara otomatis untuk membantu penemuan.
Wawasan tabel Gunakan UI yang terdapat dalam Catalog Explorer untuk melihat pengguna dan kueri paling sering dari tabel mana pun di Unity Catalog.
Silsilah data Menangkap dan memvisualisasikan cara data mengalir melalui organisasi Anda.
Untuk silsilah fitur dan model, lihat Tata kelola fitur dan silsilah data.
Diagram hubungan entitas (ERD) Tampilkan hubungan untuk tabel yang memiliki kunci asing yang ditentukan.

Lihat juga Menemukan data.

Pemantauan kualitas data

Alat untuk memastikan kualitas data dan integritas data diintegrasikan secara mendalam ke dalam Delta Lake, Apache Spark, dan Azure Databricks. Anda dapat mempelajarinya di seluruh dokumentasi Azure Databricks.

Katalog Unity menambahkan hal berikut:

Fitur Deskripsi
Pemantauan kualitas data Pemantauan kualitas data membantu Anda memastikan kualitas semua aset data Anda di Unity Catalog. Ini termasuk deteksi anomali untuk memantau kualitas data semua tabel dalam katalog atau skema dan pembuatan profil data untuk memantau properti statistik dan kualitas data tabel individual.
Tag sistem bersertifikat dan tidak digunakan lagi (Pratinjau Privat) Beri label objek yang dapat diamankan, seperti katalog, skema, dan tabel, dengan indikator kualitas data atau status siklus hidup. Tag sistem ini membantu organisasi menegakkan tata kelola, meningkatkan penemuan data, dan meningkatkan kepercayaan pada analitik dan aplikasi AI.

Kolaborasi dan berbagi data

Unity Catalog memungkinkan pengguna Anda berkolaborasi pada data yang sama di semua ruang kerja akun Anda di wilayah yang sama. Saat Anda memerlukan kolaborasi di seluruh wilayah ruang kerja, di seluruh organisasi, dan di seluruh platform, Unity Catalog menyediakan fondasi untuk alat berbagi berikut.

Fitur Deskripsi
Berbagi Delta Platform berbagi data aman yang memungkinkan Anda berbagi data dan aset AI di Azure Databricks dengan pengguna di luar organisasi Anda, baik pengguna tersebut menggunakan Databricks atau tidak.
Kamar Bersih Lingkungan yang dikelola Databricks di mana beberapa peserta di platform Databricks dan non-Databricks dapat berkolaborasi pada proyek tanpa berbagi data yang mendasar satu sama lain.
Databricks Marketplace Forum terbuka untuk bertukar data dan produk AI. Ini juga menyediakan pertukaran data privat.

Pengauditan

Log audit menangkap detail mendetail tentang siapa yang mengakses himpunan data tertentu dan tindakan yang mereka lakukan. Katalog Unity menambahkan tabel sistem, cara termudah untuk mengakses dan mengkueri log audit akun Anda.

Lihat Referensi log diagnostik dan Memantau aktivitas akun dengan tabel sistem.

Alat tata kelola data Azure Databricks terdahulu

Azure Databricks juga menyediakan fitur tata kelola warisan ini. Databricks merekomendasikan agar Anda menggunakan Unity Catalog sebagai gantinya.

Fitur Deskripsi
Kontrol akses tabel Model tata kelola data warisan yang memungkinkan Anda memberikan dan mencabut akses secara terprogram ke objek yang dikelola oleh metastore Apache Hive bawaan ruang kerja Anda.
Pengalihan Langsung Kredensial Azure Data Lake Storage Fitur tata kelola data warisan yang memungkinkan Anda mengautentikasi secara otomatis ke Azure Storage dari kluster Azure Databricks menggunakan identitas ID Microsoft Entra yang sama dengan yang Anda gunakan untuk masuk ke Azure Databricks.

Langkah selanjutnya