Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Penting
Fitur ini ada di Pratinjau Umum.
Halaman ini menjelaskan cara menggunakan Klasifikasi Databricks di Unity Catalog untuk mengklasifikasikan dan menandai data sensitif secara otomatis di katalog Anda.
Katalog data dapat memiliki sejumlah besar data, sering berisi data sensitif yang diketahui dan tidak diketahui. Sangat penting bagi tim data untuk memahami jenis data sensitif apa yang ada di setiap tabel sehingga mereka dapat mengatur dan mendemokratisasi akses ke data ini.
Untuk mengatasi masalah ini, Klasifikasi Databricks Data menggunakan agen AI untuk mengklasifikasikan dan menandai tabel secara otomatis di katalog Anda. Ini memungkinkan Anda menemukan data sensitif dan menerapkan kontrol tata kelola atas hasil, menggunakan alat seperti kontrol akses berbasis atribut Unity Catalog (ABAC). Untuk daftar tag yang didukung, lihat Tag klasifikasi yang didukung.
Dengan fitur ini, Anda dapat:
- Mengklasifikasikan data: Mesin menggunakan sistem AI agenik untuk mengklasifikasikan dan menandai tabel apa pun secara otomatis di Katalog Unity.
- Optimalkan biaya melalui pemindaian cerdas: Sistem secara cerdas menentukan kapan harus memindai data Anda dengan memanfaatkan Katalog Unity dan Mesin Kecerdasan Data. Ini berarti bahwa pemindaian bertahap dan dioptimalkan untuk memastikan semua data baru diklasifikasikan tanpa konfigurasi manual.
- Tinjau dan lindungi data sensitif: Tampilan hasil membantu Anda melihat hasil klasifikasi dan melindungi data sensitif dengan menandai dan membuat kebijakan kontrol akses untuk setiap kelas.
Penting
Klasifikasi Databricks menggunakan penyimpanan default untuk menyimpan hasil klasifikasi. Anda tidak ditagih atas penyimpanan.
Klasifikasi Databricks menggunakan model bahasa besar (LLM) untuk membantu klasifikasi.
Persyaratan
Nota
Klasifikasi data adalah fitur pratinjau tingkat ruang kerja, dan hanya dapat dikelola oleh admin ruang kerja atau akun. Untuk petunjuknya, lihat Mengelola pratinjau Azure Databricks.
Penting
Model yang mendukung fungsi ini tersedia menggunakan MOSAIC AI Model Serving Foundation Model API. Llama 3.1 dilisensikan berdasarkan Lisensi Komunitas Llama 3.1, Copyright © Meta Platforms, Inc. Semua Hak Dilindungi. Lihat Lisensi dan ketentuan pengembang model yang berlaku untuk informasi selengkapnya.
Jika model muncul di masa depan yang berkinerja lebih baik sesuai dengan tolok ukur internal Databricks, Databricks dapat mengubah model dan memperbarui dokumentasi.
- Anda harus mengaktifkan komputasi tanpa server. Lihat Menyambung ke komputasi tanpa server.
- Untuk mengaktifkan klasifikasi data, Anda harus memiliki katalog atau memiliki
USE_CATALOGMANAGEhak istimewa di dalamnya. - Untuk melihat tabel hasil, Anda harus memiliki izin berikut:
USE CATALOGdanUSE SCHEMA, plusSELECTpada tabel. Lihat Tabel sistem hasil.
Menggunakan klasifikasi data
Untuk menggunakan klasifikasi data pada katalog:
Navigasi ke katalog dan klik tab Detail .
Klik tombol Klasifikasi Data untuk mengaktifkannya.
Dialog Aktifkan Klasifikasi Data muncul. Secara default, semua skema disertakan. Untuk menyertakan hanya beberapa skema, pilih skema tersebut di menu dropdown Skema untuk disertakan .
Klik Aktifkan.
Ini membuat pekerjaan latar belakang yang secara bertahap memindai semua tabel dalam katalog atau skema yang dipilih.
Mesin klasifikasi bergantung pada pemindaian cerdas untuk menentukan kapan harus memindai tabel. Tabel dan kolom baru dalam katalog biasanya dipindai dalam waktu 24 jam setelah dibuat.
Melihat hasil klasifikasi
Untuk melihat hasil klasifikasi, klik Lihat hasil di samping tombol.
Halaman hasil terbuka, memperlihatkan hasil klasifikasi untuk semua tabel dalam katalog. Untuk memilih katalog yang berbeda, gunakan pemilih di kiri atas halaman. Gudang SQL tanpa server diperlukan, dan muncul di kanan atas halaman.
Halaman hasil mencantumkan tag klasifikasi apa pun yang diidentifikasi dalam katalog. Setiap kebijakan ABAC yang ada yang mereferensikan tag sistem klasifikasi data (class.xx) muncul dalam tabel.
Untuk meninjau hasil untuk tag klasifikasi tertentu, klik Tinjau di kolom paling kanan untuk baris yang sesuai.
Panel muncul, menampilkan tabel yang klasifikasi datanya telah mendeteksi tag klasifikasi dengan keyakinan tinggi. Tinjau tabel, kolom, dan nilai sampel. Nilai sampel hanya muncul jika Anda memiliki akses ke tabel hasil. Lihat Tabel sistem hasil.
Jika kolom yang diidentifikasi sesuai dengan harapan Anda, Anda dapat mengaktifkan pemberian tag otomatis untuk tag klasifikasi untuk katalog ini. Saat pemberian tag otomatis diaktifkan, semua deteksi klasifikasi ini yang ada dan di masa mendatang ditandai.
Untuk mengaktifkan penandaan otomatis, aktifkan Tag otomatis dengan .... Anda nantinya dapat menonaktifkan penandaan otomatis dengan tombol yang sama. Saat Anda menonaktifkan pemberian tag, tidak ada tag mendatang yang diterapkan, tetapi tag yang ada tidak dihapus.
Nota
Saat Anda mengaktifkan pemberian tag otomatis, tag tidak segera diisi ulang. Data akan terisi pada pemindaian berikutnya, dan perubahan ini akan berlaku dalam waktu 24 jam. Klasifikasi berikutnya akan segera diberikan label.
Tabel sistem hasil
Klasifikasi data membuat tabel sistem bernama system.data_classification.results untuk menyimpan hasil yang secara default hanya dapat diakses oleh admin akun. Admin akun dapat berbagi tabel ini. Tabel hanya dapat diakses saat Anda menggunakan komputasi tanpa server. Untuk detail tentang tabel ini, lihat Referensi tabel sistem klasifikasi data.
Penting
Tabel system.data_classification.results hasil berisi semua hasil klasifikasi di seluruh metastore dan menyertakan nilai sampel dari tabel di setiap katalog. Anda hanya boleh berbagi tabel ini dengan pengguna yang memiliki hak istimewa untuk melihat hasil klasifikasi di seluruh metastore, termasuk nilai sampel.
Izin berikut diperlukan untuk melihat tabel hasil: USE CATALOG dan USE SCHEMA, plus SELECT pada tabel. Pengguna dengan MANAGE atau SELECT akses ke katalog dapat melihat hasil di halaman, tetapi tidak dapat melihat nilai sampel.
Menyiapkan kontrol tata kelola berdasarkan hasil klasifikasi data
Menutupi data sensitif menggunakan kebijakan ABAC
Databricks merekomendasikan penggunaan kontrol akses berbasis atribut (ABAC) Unity Catalog untuk membuat kontrol tata kelola berdasarkan hasil klasifikasi data.
Untuk membuat kebijakan, klik Kebijakan baru. Formulir kebijakan telah diisi sebelumnya untuk menutupi kolom dengan tag klasifikasi yang sedang ditinjau. Untuk menutupi data, tentukan fungsi masking apa pun yang terdaftar di Unity Catalog dan klik Simpan.
Anda juga dapat membuat kebijakan yang mencakup beberapa tag klasifikasi, dengan mengubah Kolom saatmemenuhi kondisi dan menyediakan beberapa tag.
Misalnya, untuk membuat kebijakan yang disebut "Rahasia" yang menutupi nama, email, atau nomor telepon apa pun, atur memenuhi kondisi ke hasTag("class.name") OR hasTag("class.email_address") OR hasTag("class.phone_number").
Penemuan dan penghapusan GDPR
Contoh buku catatan ini memperlihatkan bagaimana Anda bisa menggunakan klasifikasi data untuk membantu penemuan dan penghapusan data untuk kepatuhan GDPR.
Penemuan dan penghapusan GDPR menggunakan notebook klasifikasi data
Cara menangani tag yang salah
Jika data salah ditandai, Anda dapat menghapus tag secara manual. Tag tidak akan diterapkan kembali dalam pemindaian mendatang.
Untuk menghapus tag menggunakan UI, navigasikan ke tabel di Catalog Explorer dan edit tag kolom.
Untuk menghapus tag menggunakan SQL:
ALTER TABLE catalog.schema.table
ALTER COLUMN col
UNSET TAGS ('class.phone_number', 'class.us_ssn')
Kesalahan pemindaian
Jika terjadi kesalahan selama pemindaian, tombol Kesalahan muncul di kanan atas tabel hasil.
Klik tombol untuk menampilkan tabel yang gagal memindai dan pesan kesalahan terkait.
Secara default, kegagalan yang terjadi untuk tabel individual dilewati dan dicoba kembali pada hari berikutnya.
Melihat pengeluaran Klasifikasi Data
Untuk memahami bagaimana Klasifikasi Data dikenakan biaya, lihat halaman harga. Anda dapat melihat pengeluaran yang terkait dengan Klasifikasi Data baik dengan menjalankan kueri atau menampilkan dasbor penggunaan.
Nota
Pemindaian awal lebih mahal daripada pemindaian berikutnya pada katalog yang sama, karena pemindaian tersebut inkremental dan biasanya menimbulkan biaya yang lebih rendah.
Menampilkan penggunaan dari tabel sistem system.billing.usage
Anda dapat memeriksa biaya Klasifikasi Data dari system.billing.usage. Bidang created_by dan catalog_id dapat digunakan secara opsional untuk memecah biaya:
-
created_by: Sertakan untuk melihat biaya yang dikenakan oleh pengguna yang memulai penggunaan. -
catalog_id: Sertakan untuk melihat biaya menurut katalog. ID katalog ditampilkan dalamsystem.data_classification.resultstabel.
Contoh kueri selama 30 hari terakhir:
SELECT
usage_date,
identity_metadata.created_by,
usage_metadata.catalog_id,
SUM(usage_quantity) AS dbus
FROM
system.billing.usage
WHERE
usage_date >= DATE_SUB(CURRENT_DATE(), 30)
AND billing_origin_product = 'DATA_CLASSIFICATION'
GROUP BY
usage_date,
created_by,
catalog_id
ORDER BY
usage_date DESC,
created_by;
Menampilkan penggunaan dari dasbor laporan
Jika Anda sudah memiliki dasbor penggunaan yang dikonfigurasi di ruang kerja, Anda dapat menggunakannya untuk memfilter penggunaan dengan memilih Proyek Asal Penagihan berlabel 'Klasifikasi Data.' Jika Anda tidak memiliki dasbor penggunaan yang dikonfigurasi, Anda dapat mengimpornya dan menerapkan pemfilteran yang sama. Untuk detailnya, lihat Dasbor penggunaan.
Tag klasifikasi yang didukung
Tabel berikut mencantumkan tag yang diatur oleh sistem yang didukung oleh Klasifikasi Data.
Tag-tag yang tersedia untuk pelanggan global
| Kelas | Deskripsi |
|---|---|
| class.kartu_kredit | Nomor kartu kredit |
| class.email_address | Alamat email |
| class.iban_code | Nomor Rekening Bank Internasional (IBAN) |
| class.ip_address | Alamat Protokol Internet (IPv4 atau IPv6) |
| class.location | Lokasi |
| class.name | Nama seseorang |
| class.phone_number | Nomor telepon |
| class.url | URL |
| class.us_bank_number | Nomor bank AS |
| class.surat_izin_mengemudi_as | SURAT IZIN MENGEMUDI AMERIKA SERIKAT |
| class.us_itin | Nomor Identifikasi Wajib Pajak Individu AS |
| class.us_passport | Paspor AS |
| class.us_ssn | Nomor Jaminan Sosial AS |
| class.vin | Nomor Identifikasi Kendaraan (VIN) |
Tag yang tersedia untuk pelanggan Eropa
Tag ini tersedia di ruang kerja di wilayah di Eropa.
| Kelas | Deskripsi |
|---|---|
| class.de_id_card | Nomor kartu ID Jerman (Personalausweisnummer) |
| class.de_svnr | Nomor asuransi sosial Jerman (Sozialversicherungsnummer) |
| class.de_tax_id | Nomor Identifikasi Pajak Jerman (Steueridentifikationsnummer) |
| class.uk_nhs | Nomor Layanan Kesehatan Nasional Inggris (NHS) |
| class.uk_nino | Nomor Asuransi Nasional Inggris (NINO) |
Tag yang tersedia untuk pelanggan Australia
Tag ini tersedia di ruang kerja di wilayah di Australia.
| Kelas | Deskripsi |
|---|---|
| class.au_medicare | Nomor kartu Medicare Australia |
| class.au_tfn | Nomor File Pajak Australia (TFN) |
Keterbatasan
- Tampilan dan tampilan metrik tidak didukung. Jika tampilan didasarkan pada tabel yang ada, Databricks merekomendasikan untuk mengklasifikasikan tabel yang mendasar untuk melihat apakah tabel tersebut berisi data sensitif.