Bagikan melalui


Klasifikasi data

Penting

Fitur ini ada di Pratinjau Umum.

Halaman ini menjelaskan cara menggunakan Klasifikasi Databricks di Unity Catalog untuk mengklasifikasikan dan menandai data sensitif secara otomatis di katalog Anda.

Katalog data dapat memiliki sejumlah besar data, sering berisi data sensitif yang diketahui dan tidak diketahui. Sangat penting bagi tim data untuk memahami jenis data sensitif apa yang ada di setiap tabel sehingga mereka dapat mengatur dan mendemokratisasi akses ke data ini.

Untuk mengatasi masalah ini, Klasifikasi Databricks Data menggunakan agen AI untuk mengklasifikasikan dan menandai tabel secara otomatis di katalog Anda. Ini memungkinkan Anda menemukan data sensitif dan menerapkan kontrol tata kelola atas hasil, menggunakan alat seperti kontrol akses berbasis atribut Unity Catalog (ABAC). Untuk daftar tag yang didukung, lihat Tag klasifikasi yang didukung.

Dengan fitur ini, Anda dapat:

  • Mengklasifikasikan data: Mesin menggunakan sistem AI agenik untuk mengklasifikasikan dan menandai tabel apa pun secara otomatis di Katalog Unity.
  • Optimalkan biaya melalui pemindaian cerdas: Sistem secara cerdas menentukan kapan harus memindai data Anda dengan memanfaatkan Katalog Unity dan Mesin Kecerdasan Data. Ini berarti bahwa pemindaian bertahap dan dioptimalkan untuk memastikan semua data baru diklasifikasikan tanpa konfigurasi manual.
  • Tinjau dan lindungi data sensitif: Tampilan hasil membantu Anda melihat hasil klasifikasi dan melindungi data sensitif dengan menandai dan membuat kebijakan kontrol akses untuk setiap kelas.

Penting

Klasifikasi Databricks menggunakan penyimpanan default untuk menyimpan hasil klasifikasi. Anda tidak ditagih atas penyimpanan.

Klasifikasi Databricks menggunakan model bahasa besar (LLM) untuk membantu klasifikasi.

Persyaratan

Nota

Klasifikasi data adalah fitur pratinjau tingkat ruang kerja, dan hanya dapat dikelola oleh admin ruang kerja atau akun. Untuk petunjuknya, lihat Mengelola pratinjau Azure Databricks.

Penting

Model yang mendukung fungsi ini tersedia menggunakan MOSAIC AI Model Serving Foundation Model API. Llama 3.1 dilisensikan berdasarkan Lisensi Komunitas Llama 3.1, Copyright © Meta Platforms, Inc. Semua Hak Dilindungi. Lihat Lisensi dan ketentuan pengembang model yang berlaku untuk informasi selengkapnya.

Jika model muncul di masa depan yang berkinerja lebih baik sesuai dengan tolok ukur internal Databricks, Databricks dapat mengubah model dan memperbarui dokumentasi.

  • Anda harus mengaktifkan komputasi tanpa server. Lihat Menyambung ke komputasi tanpa server.
  • Untuk mengaktifkan klasifikasi data, Anda harus memiliki katalog atau memiliki USE_CATALOGMANAGE hak istimewa di dalamnya.
  • Untuk melihat tabel hasil, Anda harus memiliki izin berikut: USE CATALOG dan USE SCHEMA, plus SELECT pada tabel. Lihat Tabel sistem hasil.

Menggunakan klasifikasi data

Untuk menggunakan klasifikasi data pada katalog:

  1. Navigasi ke katalog dan klik tab Detail .

    Tab Detail untuk halaman katalog di Catalog Explorer.

  2. Klik tombol Klasifikasi Data untuk mengaktifkannya.

  3. Dialog Aktifkan Klasifikasi Data muncul. Secara default, semua skema disertakan. Untuk menyertakan hanya beberapa skema, pilih skema tersebut di menu dropdown Skema untuk disertakan .

    Pengaturan modal untuk klasifikasi data.

  4. Klik Aktifkan.

Ini membuat pekerjaan latar belakang yang secara bertahap memindai semua tabel dalam katalog atau skema yang dipilih.

Mesin klasifikasi bergantung pada pemindaian cerdas untuk menentukan kapan harus memindai tabel. Tabel dan kolom baru dalam katalog biasanya dipindai dalam waktu 24 jam setelah dibuat.

Melihat hasil klasifikasi

Untuk melihat hasil klasifikasi, klik Lihat hasil di samping tombol.

Lihat tombol hasil untuk Klasifikasi Data.

Halaman hasil terbuka, memperlihatkan hasil klasifikasi untuk semua tabel dalam katalog. Untuk memilih katalog yang berbeda, gunakan pemilih di kiri atas halaman. Gudang SQL tanpa server diperlukan, dan muncul di kanan atas halaman.

Halaman hasil mencantumkan tag klasifikasi apa pun yang diidentifikasi dalam katalog. Setiap kebijakan ABAC yang ada yang mereferensikan tag sistem klasifikasi data (class.xx) muncul dalam tabel.

Halaman hasil memperlihatkan tabel kelas yang terdeteksi.

Untuk meninjau hasil untuk tag klasifikasi tertentu, klik Tinjau di kolom paling kanan untuk baris yang sesuai.

Hasil memperlihatkan kolom dengan klasifikasi yang terdeteksi.

Panel muncul, menampilkan tabel yang klasifikasi datanya telah mendeteksi tag klasifikasi dengan keyakinan tinggi. Tinjau tabel, kolom, dan nilai sampel. Nilai sampel hanya muncul jika Anda memiliki akses ke tabel hasil. Lihat Tabel sistem hasil.

Jika kolom yang diidentifikasi sesuai dengan harapan Anda, Anda dapat mengaktifkan pemberian tag otomatis untuk tag klasifikasi untuk katalog ini. Saat pemberian tag otomatis diaktifkan, semua deteksi klasifikasi ini yang ada dan di masa mendatang ditandai.

Untuk mengaktifkan penandaan otomatis, aktifkan Tag otomatis dengan .... Anda nantinya dapat menonaktifkan penandaan otomatis dengan tombol yang sama. Saat Anda menonaktifkan pemberian tag, tidak ada tag mendatang yang diterapkan, tetapi tag yang ada tidak dihapus.

Nota

Saat Anda mengaktifkan pemberian tag otomatis, tag tidak segera diisi ulang. Data akan terisi pada pemindaian berikutnya, dan perubahan ini akan berlaku dalam waktu 24 jam. Klasifikasi berikutnya akan segera diberikan label.

Tabel sistem hasil

Klasifikasi data membuat tabel sistem bernama system.data_classification.results untuk menyimpan hasil yang secara default hanya dapat diakses oleh admin akun. Admin akun dapat berbagi tabel ini. Tabel hanya dapat diakses saat Anda menggunakan komputasi tanpa server. Untuk detail tentang tabel ini, lihat Referensi tabel sistem klasifikasi data.

Penting

Tabel system.data_classification.results hasil berisi semua hasil klasifikasi di seluruh metastore dan menyertakan nilai sampel dari tabel di setiap katalog. Anda hanya boleh berbagi tabel ini dengan pengguna yang memiliki hak istimewa untuk melihat hasil klasifikasi di seluruh metastore, termasuk nilai sampel.

Izin berikut diperlukan untuk melihat tabel hasil: USE CATALOG dan USE SCHEMA, plus SELECT pada tabel. Pengguna dengan MANAGE atau SELECT akses ke katalog dapat melihat hasil di halaman, tetapi tidak dapat melihat nilai sampel.

Menyiapkan kontrol tata kelola berdasarkan hasil klasifikasi data

Menutupi data sensitif menggunakan kebijakan ABAC

Databricks merekomendasikan penggunaan kontrol akses berbasis atribut (ABAC) Unity Catalog untuk membuat kontrol tata kelola berdasarkan hasil klasifikasi data.

Untuk membuat kebijakan, klik Kebijakan baru. Formulir kebijakan telah diisi sebelumnya untuk menutupi kolom dengan tag klasifikasi yang sedang ditinjau. Untuk menutupi data, tentukan fungsi masking apa pun yang terdaftar di Unity Catalog dan klik Simpan.

Anda juga dapat membuat kebijakan yang mencakup beberapa tag klasifikasi, dengan mengubah Kolom saatmemenuhi kondisi dan menyediakan beberapa tag.

Misalnya, untuk membuat kebijakan yang disebut "Rahasia" yang menutupi nama, email, atau nomor telepon apa pun, atur memenuhi kondisi ke hasTag("class.name") OR hasTag("class.email_address") OR hasTag("class.phone_number").

Penemuan dan penghapusan GDPR

Contoh buku catatan ini memperlihatkan bagaimana Anda bisa menggunakan klasifikasi data untuk membantu penemuan dan penghapusan data untuk kepatuhan GDPR.

Penemuan dan penghapusan GDPR menggunakan notebook klasifikasi data

Dapatkan buku catatan

Cara menangani tag yang salah

Jika data salah ditandai, Anda dapat menghapus tag secara manual. Tag tidak akan diterapkan kembali dalam pemindaian mendatang.

Untuk menghapus tag menggunakan UI, navigasikan ke tabel di Catalog Explorer dan edit tag kolom.

Untuk menghapus tag menggunakan SQL:

ALTER TABLE catalog.schema.table
ALTER COLUMN col
UNSET TAGS ('class.phone_number', 'class.us_ssn')

Kesalahan pemindaian

Jika terjadi kesalahan selama pemindaian, tombol Kesalahan muncul di kanan atas tabel hasil.

Halaman hasil dengan tombol Kesalahan di kanan atas tabel.

Klik tombol untuk menampilkan tabel yang gagal memindai dan pesan kesalahan terkait.

Kesalahan pemindaian tabel klasifikasi data.

Secara default, kegagalan yang terjadi untuk tabel individual dilewati dan dicoba kembali pada hari berikutnya.

Melihat pengeluaran Klasifikasi Data

Untuk memahami bagaimana Klasifikasi Data dikenakan biaya, lihat halaman harga. Anda dapat melihat pengeluaran yang terkait dengan Klasifikasi Data baik dengan menjalankan kueri atau menampilkan dasbor penggunaan.

Nota

Pemindaian awal lebih mahal daripada pemindaian berikutnya pada katalog yang sama, karena pemindaian tersebut inkremental dan biasanya menimbulkan biaya yang lebih rendah.

Menampilkan penggunaan dari tabel sistem system.billing.usage

Anda dapat memeriksa biaya Klasifikasi Data dari system.billing.usage. Bidang created_by dan catalog_id dapat digunakan secara opsional untuk memecah biaya:

  • created_by: Sertakan untuk melihat biaya yang dikenakan oleh pengguna yang memulai penggunaan.
  • catalog_id: Sertakan untuk melihat biaya menurut katalog. ID katalog ditampilkan dalam system.data_classification.results tabel.

Contoh kueri selama 30 hari terakhir:

SELECT
   usage_date,
   identity_metadata.created_by,
   usage_metadata.catalog_id,
   SUM(usage_quantity) AS dbus
FROM
   system.billing.usage
WHERE
   usage_date >= DATE_SUB(CURRENT_DATE(), 30)
  AND billing_origin_product = 'DATA_CLASSIFICATION'
GROUP BY
   usage_date,
   created_by,
   catalog_id
ORDER BY
   usage_date DESC,
   created_by;

Menampilkan penggunaan dari dasbor laporan

Jika Anda sudah memiliki dasbor penggunaan yang dikonfigurasi di ruang kerja, Anda dapat menggunakannya untuk memfilter penggunaan dengan memilih Proyek Asal Penagihan berlabel 'Klasifikasi Data.' Jika Anda tidak memiliki dasbor penggunaan yang dikonfigurasi, Anda dapat mengimpornya dan menerapkan pemfilteran yang sama. Untuk detailnya, lihat Dasbor penggunaan.

Tag klasifikasi yang didukung

Tabel berikut mencantumkan tag yang diatur oleh sistem yang didukung oleh Klasifikasi Data.

Tag-tag yang tersedia untuk pelanggan global

Kelas Deskripsi
class.kartu_kredit Nomor kartu kredit
class.email_address Alamat email
class.iban_code Nomor Rekening Bank Internasional (IBAN)
class.ip_address Alamat Protokol Internet (IPv4 atau IPv6)
class.location Lokasi
class.name Nama seseorang
class.phone_number Nomor telepon
class.url URL
class.us_bank_number Nomor bank AS
class.surat_izin_mengemudi_as SURAT IZIN MENGEMUDI AMERIKA SERIKAT
class.us_itin Nomor Identifikasi Wajib Pajak Individu AS
class.us_passport Paspor AS
class.us_ssn Nomor Jaminan Sosial AS
class.vin Nomor Identifikasi Kendaraan (VIN)

Tag yang tersedia untuk pelanggan Eropa

Tag ini tersedia di ruang kerja di wilayah di Eropa.

Kelas Deskripsi
class.de_id_card Nomor kartu ID Jerman (Personalausweisnummer)
class.de_svnr Nomor asuransi sosial Jerman (Sozialversicherungsnummer)
class.de_tax_id Nomor Identifikasi Pajak Jerman (Steueridentifikationsnummer)
class.uk_nhs Nomor Layanan Kesehatan Nasional Inggris (NHS)
class.uk_nino Nomor Asuransi Nasional Inggris (NINO)

Tag yang tersedia untuk pelanggan Australia

Tag ini tersedia di ruang kerja di wilayah di Australia.

Kelas Deskripsi
class.au_medicare Nomor kartu Medicare Australia
class.au_tfn Nomor File Pajak Australia (TFN)

Keterbatasan

  • Tampilan dan tampilan metrik tidak didukung. Jika tampilan didasarkan pada tabel yang ada, Databricks merekomendasikan untuk mengklasifikasikan tabel yang mendasar untuk melihat apakah tabel tersebut berisi data sensitif.