Aracılığıyla paylaş


Veri Sınıflandırma

Önemli

Bu özellik Genel Önizleme aşamasındadır. Önizlemeler sayfasında önizleme kaydını onaylayabilirsiniz. Bkz. Azure Databricks önizlemelerini yönetme.

Bu sayfada, kataloğunuzdaki hassas verileri otomatik olarak sınıflandırmak ve etiketlemek için Unity Kataloğu'nda Databricks Veri Sınıflandırması'nın nasıl kullanılacağı açıklanır.

Veri kataloglarında, genellikle bilinen ve bilinmeyen hassas veriler içeren çok miktarda veri bulunabilir. Veri ekiplerinin her tabloda ne tür hassas verilerin bulunduğunu anlaması kritik önem taşır; böylece bu verilere erişimi hem idare edebilir hem de demokratikleştirebilirler.

Bu sorunu gidermek için Databricks Veri Sınıflandırması, kataloğunuzdaki tabloları otomatik olarak sınıflandırmak ve etiketlemek için bir yapay zeka aracısı kullanır. Bu, Unity Kataloğu öznitelik tabanlı erişim denetimi (ABAC) gibi araçları kullanarak hassas verileri bulmanızı ve sonuçlar üzerinde idare denetimleri uygulamanızı sağlar. Desteklenen etiketlerin listesi için bkz . Desteklenen sınıflandırma etiketleri.

Bu özelliği kullanarak şunları yapabilirsiniz:

  • Verileri sınıflandırma: Altyapı, Unity Kataloğu'ndaki tabloları otomatik olarak sınıflandırmak ve etiketlemek için aracı bir yapay zeka sistemi kullanır.
  • Akıllı tarama ile maliyeti iyileştirme: Sistem, Unity Kataloğu ve Veri Zekası Altyapısı'nı kullanarak verilerinizin ne zaman tarandığını akıllı bir şekilde belirler. Bu, tüm yeni verilerin el ile yapılandırma olmadan sınıflandırılmasını sağlamak için taramanın artımlı ve iyileştirilmiş olduğu anlamına gelir.
  • Hassas verileri gözden geçirme ve koruma: Sonuçlar görüntüsü, sınıflandırma sonuçlarını görüntülemenize ve her sınıf için etiketleyip erişim denetimi ilkeleri oluşturarak hassas verileri korumanıza yardımcı olur.

Önemli

Databricks Veri Sınıflandırması, sınıflandırma sonuçlarını depolamak için varsayılan depolamayı kullanır. Depolama için faturalandırılmazsınız.

Databricks Veri Sınıflandırması, sınıflandırmaya yardımcı olmak için büyük bir dil modeli (LLM) kullanır.

Gereksinimler

Uyarı

Veri sınıflandırması, çalışma alanı düzeyinde bir önizleme özelliğidir ve yalnızca bir çalışma alanı veya hesap yöneticisi tarafından yönetilebilir. Yönergeler için bkz. Azure Databricks önizlemelerini yönetme.

Önemli

Bu işlevi güçlendiren model, Mozaik AI Modeli Sunma Temel Modeli API'leri kullanılarak kullanılabilir hale getiriliyor. Llama 3.1, Lama 3.1 Topluluk Lisansı, Telif Hakkı © Meta Platformları, Inc. altında lisanslanır. Tüm Hakları Saklıdır. Daha fazla bilgi için bkz. Geçerli model geliştirici lisansları ve koşulları .

Gelecekte Databricks'in iç karşılaştırmalarına göre daha iyi performans gösteren modeller ortaya çıkarsa Databricks modelleri değiştirebilir ve belgeleri güncelleştirebilir.

  • Sunucusuz işlem etkinleştirilmiş olmalıdır. Bkz. Sunucusuz bilişime bağlanma.
  • Veri sınıflandırmasını etkinleştirmek için kataloğun sahibi olmanız veya üzerinde USE_CATALOG ve MANAGE ayrıcalıklarına sahip olmanız gerekir.
  • Sonuçlar tablosunu görüntülemek için aşağıdaki izinlere sahip olmanız gerekir: USE CATALOG ve USE SCHEMAartı SELECT tabloda. Bkz. Sonuç sistemi tablosu.

Veri sınıflandırmayı kullanma

Katalogda veri sınıflandırmasını kullanmak için:

  1. Kataloğa gidin ve Ayrıntılar sekmesine tıklayın.

    Katalog Gezgini'nde katalog sayfasının Ayrıntılar sekmesi.

  2. Etkinleştirmek için Veri Sınıflandırması düğmesine tıklayın.

  3. Veri Sınıflandırmasını Etkinleştir iletişim kutusu görüntülenir. Varsayılan olarak, tüm şemalar eklenir. Belirli şemaları eklemek istiyorsanız, Şemalar açılır menüsünde bunları seçin.

    Veri Sınıflandırma için ayarlar penceresi.

  4. Etkinleştir’e tıklayın.

Bu, katalogdaki veya seçili şemalardaki tüm tabloları artımlı olarak tarayan bir arka plan işi oluşturur.

Sınıflandırma altyapısı, bir tablonun ne zaman tarandığını belirlemek için akıllı taramaya dayanır. Katalogdaki yeni tablolar ve sütunlar genellikle oluşturulduktan sonraki 24 saat içinde taranır.

Sınıflandırma sonuçlarını görüntüleme

Sınıflandırma sonuçlarını görüntülemek için açma/kapama düğmesinin yanındaki 'Sonuçları göster' seçeneğine tıklayın.

Veri Sınıflandırması için sonuçlar düğmesine bakın.

Katalogdaki tüm tabloların sınıflandırma sonuçlarını gösteren bir sonuç sayfası açılır. Farklı bir katalog seçmek için sayfanın sol üst kısmındaki seçiciyi kullanın. Sunucusuz SQL ambarı gereklidir ve sayfanın sağ üst kısmında görünür.

Sonuçlar sayfasında katalogda tanımlanan tüm sınıflandırma etiketleri listelenir. Veri sınıflandırma sistemi etiketlerine (class.xx) başvuran mevcut tüm ABAC ilkeleri tabloda görünür.

Algılanan sınıfların tablosunu gösteren sonuçlar sayfası.

Belirli bir sınıflandırma etiketinin sonuçlarını gözden geçirmek için ilgili satırın en sağdaki sütununda gözden geçir'e tıklayın.

Algılanan sınıflandırmalara sahip sütunları gösteren sonuçlar.

Veri sınıflandırmasının sınıflandırma etiketini yüksek güvenle algıladığı tabloları gösteren bir panel görüntülenir. Tabloları, sütunları ve örnek değerleri gözden geçirin. Örnek değerler yalnızca sonuçlar tablosuna erişiminiz varsa görünür. Bkz. Sonuç sistemi tablosu.

Tanımlanan sütunlar beklentilerinize uyuyorsa, bu kataloğun sınıflandırma etiketi için otomatik etiketlemeyi etkinleştirebilirsiniz. Otomatik etiketleme etkinleştirildiğinde, bu sınıflandırmanın tüm mevcut ve gelecekteki algılamaları etiketlenir.

Otomatik etiketlemeyi etkinleştirmek için Otomatik etiketlemeyi .... ile anahtarlayın. Daha sonra aynı anahtarı kullanarak otomatik etiketlemeyi devre dışı bırakabilirsiniz. Etiketlemeyi devre dışı bırakırsanız, gelecekteki hiçbir etiket uygulanmaz, ancak mevcut etiketler kaldırılmaz.

Uyarı

Otomatik etiketlemeyi etkinleştirdiğinizde etiketler hemen yedeklenmez. Bunlar bir sonraki taramada doldurulacak ve bu da 24 saat içinde geçerli olacaktır. Sonraki sınıflandırmalar hemen etiketlenir.

Sonuç sistemi tablosu

Veri sınıflandırması, varsayılan olarak yalnızca hesap yöneticisi tarafından erişilebilen sonuçları depolamak için adlı system.data_classification.results bir sistem tablosu oluşturur. Hesap yöneticisi bu tabloyu paylaşabilir. Tabloya yalnızca sunucusuz işlem kullandığınızda erişilebilir. Bu tablo hakkında ayrıntılı bilgi için bkz. Veri sınıflandırma sistemi tablo başvurusu.

Önemli

Sonuçlar tablosu system.data_classification.results , meta veri deposunun tamamında tüm sınıflandırma sonuçlarını içerir ve her katalogdaki tablolardan örnek değerler içerir. Bu tabloyu yalnızca örnek değerler de dahil olmak üzere meta veri deposu genelindeki sınıflandırma sonuçlarını görme ayrıcalığı olan kullanıcılarla paylaşmalısınız.

Sonuçlar tablosunu görüntülemek için aşağıdaki izinler gereklidir: USE CATALOG ve USE SCHEMAartı SELECT olarak tabloda. MANAGE veya SELECT erişimi olan kullanıcılar kataloğun sonuçlarını sayfada görebilir, ancak örnek değerleri göremez.

Veri sınıflandırma sonuçlarına göre idare denetimlerini ayarlama

ABAC ilkesi kullanarak hassas verileri maskele

Databricks, veri sınıflandırma sonuçlarına dayalı idare denetimleri oluşturmak için Unity Kataloğu öznitelik tabanlı erişim denetiminin (ABAC) kullanılmasını önerir.

İlke oluşturmak için Yeni ilke'ye tıklayın. İlke formu, sınıflandırma etiketi gözden geçirilmekte olan sütunları maskeleyecek şekilde önceden doldurulur. Verileri maskelemek için Unity Kataloğu'nda kayıtlı herhangi bir maskeleme işlevini belirtin ve Kaydet'e tıklayın.

Birden çok sınıflandırma etiketini kapsayan bir ilke de oluşturabilirsiniz, sütunkoşulu karşılar olarak değiştirip birden fazla etiket belirterek.

Örneğin, herhangi bir adı, e-postayı veya telefon numarasını maskeleyen "Gizli" adlı bir ilke oluşturmak için, koşulu karşılayanhasTag("class.name") OR hasTag("class.email_address") OR hasTag("class.phone_number") olarak ayarlayın.

GDPR tespit ve silme

Bu örnek not defteri, GDPR uyumluluğu için veri bulma ve silme işlemine yardımcı olması için veri sınıflandırmasını nasıl kullanabileceğinizi gösterir.

Veri sınıflandırma not defterini kullanarak GDPR bulma ve silme

Dizüstü bilgisayar al

Yanlış etiketleri işleme

Veriler yanlış etiketlenmişse etiketi el ile kaldırabilirsiniz. Etiket, gelecek taramalarda yeniden uygulanmaz.

Kullanıcı arabirimini kullanarak bir etiketi kaldırmak için Katalog Gezgini'nde tabloya gidin ve sütun etiketlerini düzenleyin.

SQL kullanarak etiketi kaldırmak için:

ALTER TABLE catalog.schema.table
ALTER COLUMN col
UNSET TAGS ('class.phone_number', 'class.us_ssn')

Tarama hataları

Tarama sırasında herhangi bir hata oluşursa sonuçlar tablosunun sağ üst kısmında bir Hatalar düğmesi görüntülenir.

Tablonun sağ üst kısmında Hatalar düğmesinin bulunduğu Sonuçlar sayfası.

Taramada başarısız olan tabloları ve ilişkili hata iletilerini görüntülemek için düğmeye tıklayın.

Veri sınıflandırma tablosu tarama hataları.

Varsayılan olarak, tek tek tablolar için oluşan hatalar atlanır ve sonraki gün yeniden denener.

Veri Sınıflandırması giderlerini görüntüleme

Veri Sınıflandırması'nın nasıl faturalandırıldığından anlamak için fiyatlandırma sayfasına bakın. Sorgu çalıştırarak veya kullanım panosunu görüntüleyerek Veri Sınıflandırması ile ilgili giderleri görüntüleyebilirsiniz.

Uyarı

Bu taramalar artımlı olduğundan ve genellikle daha düşük maliyetlere neden olduğundan, ilk tarama aynı katalogdaki sonraki taramalardan daha maliyetlidir.

Sistem tablosundan kullanım görüntüle system.billing.usage

Veri Sınıflandırması giderlerini içinden system.billing.usagesorgulayabilirsiniz. alanlar created_by ve catalog_id isteğe bağlı olarak maliyetleri bölmek için kullanılabilir:

  • created_by: Kullanımı tetikleyen kullanıcının maliyetlerini görmek için ekleyin.
  • catalog_id: Maliyetleri kataloğa göre görmek için ekleyin. Katalog kimliği tabloda gösterilir system.data_classification.results .

Son 30 gün için örnek sorgu:

SELECT
   usage_date,
   identity_metadata.created_by,
   usage_metadata.catalog_id,
   SUM(usage_quantity) AS dbus
FROM
   system.billing.usage
WHERE
   usage_date >= DATE_SUB(CURRENT_DATE(), 30)
  AND billing_origin_product = 'DATA_CLASSIFICATION'
GROUP BY
   usage_date,
   created_by,
   catalog_id
ORDER BY
   usage_date DESC,
   created_by;

Kullanım gösterge panelinden kullanımı görüntüle

Çalışma alanınızda zaten yapılandırılmış bir kullanım panonuz varsa, 'Veri Sınıflandırması' etiketli Faturalama Kaynağı Projesi'ni seçerek kullanımı filtrelemek için bu panoyu kullanabilirsiniz. Yapılandırılmış bir kullanım kontrol paneliniz yoksa, bir tanesini içeri aktarabilir ve aynı filtrelemeyi uygulayabilirsiniz. Ayrıntılar için bkz . Kullanım panoları.

Desteklenen sınıflandırma etiketleri

Aşağıdaki tablolarda Veri Sınıflandırması tarafından desteklenen Sistem tarafından yönetilen etiketler listelenmiştir .

Genel müşterilerin kullanımına sunulan etiketler

Sınıf Açıklama
class.credit_card Kredi kartı numarası
class.email_address E-posta adresi
class.iban_code Uluslararası Banka Hesap Numarası (IBAN)
class.ip_address İnternet Protokolü Adresi (IPv4 veya IPv6)
class.location Yer
class.name Bir kişinin adı
class.phone_number Telefon numarası
class.url URL
class.us_bank_number ABD banka numarası
class.sürücü_belgesi_abd ABD sürücü lisansı
class.us_itin ABD Bireysel Vergi Mükellefi Kimlik Numarası
class.us_pasaport ABD Pasaportu
class.us_ssn ABD Sosyal Güvenlik Numarası
class.vin Araç Kimlik Numarası (VIN)

Avrupalı müşterilerin kullanımına sunulan etiketler

Bu etiketler Avrupa'daki bölgelerdeki çalışma alanlarında kullanılabilir.

Sınıf Açıklama
class.de_id_card Almanca kimlik kartı numarası (Personalausweisnummer)
class.de_svnr Alman sosyal sigorta numarası (Sozialversicherungsnummer)
class.de_tax_id Alman vergi kimliği (Steueridentifikationsnummer)
class.uk_nhs Birleşik Krallık Ulusal Sağlık Hizmeti (NHS) numarası
class.uk_nino Birleşik Krallık Ulusal Sigorta Numarası (NINO)

Avustralyalı müşterilerin kullanabileceği etiketler

Bu etiketler Avustralya'daki bölgelerdeki çalışma alanlarında kullanılabilir.

Sınıf Açıklama
class.au_medicare Avustralya Medicare kart numarası
class.au_tfn Avustralya Vergi Dosya Numarası (TFN)

Sınırlamalar

  • Görünümler ve ölçüm görünümleri desteklenmez. Görünüm mevcut tabloları temel alıyorsa Databricks, hassas veriler içerip içermediklerini görmek için temel tabloları sınıflandırmanızı önerir.