Not
Bu sayfaya erişim yetkilendirme gerektiriyor. Oturum açmayı veya dizinleri değiştirmeyi deneyebilirsiniz.
Bu sayfaya erişim yetkilendirme gerektiriyor. Dizinleri değiştirmeyi deneyebilirsiniz.
Önemli
Bu özellik Genel Önizleme aşamasındadır. Önizlemeler sayfasında önizleme kaydını onaylayabilirsiniz. Bkz. Azure Databricks önizlemelerini yönetme.
Bu sayfada, kataloğunuzdaki hassas verileri otomatik olarak sınıflandırmak ve etiketlemek için Unity Kataloğu'nda Databricks Veri Sınıflandırması'nın nasıl kullanılacağı açıklanır.
Veri kataloglarında, genellikle bilinen ve bilinmeyen hassas veriler içeren çok miktarda veri bulunabilir. Veri ekiplerinin her tabloda ne tür hassas verilerin bulunduğunu anlaması kritik önem taşır; böylece bu verilere erişimi hem idare edebilir hem de demokratikleştirebilirler.
Bu sorunu gidermek için Databricks Veri Sınıflandırması, kataloğunuzdaki tabloları otomatik olarak sınıflandırmak ve etiketlemek için bir yapay zeka aracısı kullanır. Bu, Unity Kataloğu öznitelik tabanlı erişim denetimi (ABAC) gibi araçları kullanarak hassas verileri bulmanızı ve sonuçlar üzerinde idare denetimleri uygulamanızı sağlar. Desteklenen etiketlerin listesi için bkz . Desteklenen sınıflandırma etiketleri.
Bu özelliği kullanarak şunları yapabilirsiniz:
- Verileri sınıflandırma: Altyapı, Unity Kataloğu'ndaki tabloları otomatik olarak sınıflandırmak ve etiketlemek için aracı bir yapay zeka sistemi kullanır.
- Akıllı tarama ile maliyeti iyileştirme: Sistem, Unity Kataloğu ve Veri Zekası Altyapısı'nı kullanarak verilerinizin ne zaman tarandığını akıllı bir şekilde belirler. Bu, tüm yeni verilerin el ile yapılandırma olmadan sınıflandırılmasını sağlamak için taramanın artımlı ve iyileştirilmiş olduğu anlamına gelir.
- Hassas verileri gözden geçirme ve koruma: Sonuçlar görüntüsü, sınıflandırma sonuçlarını görüntülemenize ve her sınıf için etiketleyip erişim denetimi ilkeleri oluşturarak hassas verileri korumanıza yardımcı olur.
Önemli
Databricks Veri Sınıflandırması, sınıflandırma sonuçlarını depolamak için varsayılan depolamayı kullanır. Depolama için faturalandırılmazsınız.
Databricks Veri Sınıflandırması, sınıflandırmaya yardımcı olmak için büyük bir dil modeli (LLM) kullanır.
Gereksinimler
Uyarı
Veri sınıflandırması, çalışma alanı düzeyinde bir önizleme özelliğidir ve yalnızca bir çalışma alanı veya hesap yöneticisi tarafından yönetilebilir. Yönergeler için bkz. Azure Databricks önizlemelerini yönetme.
Önemli
Bu işlevi güçlendiren model, Mozaik AI Modeli Sunma Temel Modeli API'leri kullanılarak kullanılabilir hale getiriliyor. Llama 3.1, Lama 3.1 Topluluk Lisansı, Telif Hakkı © Meta Platformları, Inc. altında lisanslanır. Tüm Hakları Saklıdır. Daha fazla bilgi için bkz. Geçerli model geliştirici lisansları ve koşulları .
Gelecekte Databricks'in iç karşılaştırmalarına göre daha iyi performans gösteren modeller ortaya çıkarsa Databricks modelleri değiştirebilir ve belgeleri güncelleştirebilir.
- Sunucusuz işlem etkinleştirilmiş olmalıdır. Bkz. Sunucusuz bilişime bağlanma.
- Veri sınıflandırmasını etkinleştirmek için kataloğun sahibi olmanız veya üzerinde
USE_CATALOGveMANAGEayrıcalıklarına sahip olmanız gerekir. - Sonuçlar tablosunu görüntülemek için aşağıdaki izinlere sahip olmanız gerekir:
USE CATALOGveUSE SCHEMAartıSELECTtabloda. Bkz. Sonuç sistemi tablosu.
Veri sınıflandırmayı kullanma
Katalogda veri sınıflandırmasını kullanmak için:
Kataloğa gidin ve Ayrıntılar sekmesine tıklayın.
Etkinleştirmek için Veri Sınıflandırması düğmesine tıklayın.
Veri Sınıflandırmasını Etkinleştir iletişim kutusu görüntülenir. Varsayılan olarak, tüm şemalar eklenir. Belirli şemaları eklemek istiyorsanız, Şemalar açılır menüsünde bunları seçin.
Etkinleştir’e tıklayın.
Bu, katalogdaki veya seçili şemalardaki tüm tabloları artımlı olarak tarayan bir arka plan işi oluşturur.
Sınıflandırma altyapısı, bir tablonun ne zaman tarandığını belirlemek için akıllı taramaya dayanır. Katalogdaki yeni tablolar ve sütunlar genellikle oluşturulduktan sonraki 24 saat içinde taranır.
Sınıflandırma sonuçlarını görüntüleme
Sınıflandırma sonuçlarını görüntülemek için açma/kapama düğmesinin yanındaki 'Sonuçları göster' seçeneğine tıklayın.
Katalogdaki tüm tabloların sınıflandırma sonuçlarını gösteren bir sonuç sayfası açılır. Farklı bir katalog seçmek için sayfanın sol üst kısmındaki seçiciyi kullanın. Sunucusuz SQL ambarı gereklidir ve sayfanın sağ üst kısmında görünür.
Sonuçlar sayfasında katalogda tanımlanan tüm sınıflandırma etiketleri listelenir. Veri sınıflandırma sistemi etiketlerine (class.xx) başvuran mevcut tüm ABAC ilkeleri tabloda görünür.
Belirli bir sınıflandırma etiketinin sonuçlarını gözden geçirmek için ilgili satırın en sağdaki sütununda gözden geçir'e tıklayın.
Veri sınıflandırmasının sınıflandırma etiketini yüksek güvenle algıladığı tabloları gösteren bir panel görüntülenir. Tabloları, sütunları ve örnek değerleri gözden geçirin. Örnek değerler yalnızca sonuçlar tablosuna erişiminiz varsa görünür. Bkz. Sonuç sistemi tablosu.
Tanımlanan sütunlar beklentilerinize uyuyorsa, bu kataloğun sınıflandırma etiketi için otomatik etiketlemeyi etkinleştirebilirsiniz. Otomatik etiketleme etkinleştirildiğinde, bu sınıflandırmanın tüm mevcut ve gelecekteki algılamaları etiketlenir.
Otomatik etiketlemeyi etkinleştirmek için Otomatik etiketlemeyi .... ile anahtarlayın. Daha sonra aynı anahtarı kullanarak otomatik etiketlemeyi devre dışı bırakabilirsiniz. Etiketlemeyi devre dışı bırakırsanız, gelecekteki hiçbir etiket uygulanmaz, ancak mevcut etiketler kaldırılmaz.
Uyarı
Otomatik etiketlemeyi etkinleştirdiğinizde etiketler hemen yedeklenmez. Bunlar bir sonraki taramada doldurulacak ve bu da 24 saat içinde geçerli olacaktır. Sonraki sınıflandırmalar hemen etiketlenir.
Sonuç sistemi tablosu
Veri sınıflandırması, varsayılan olarak yalnızca hesap yöneticisi tarafından erişilebilen sonuçları depolamak için adlı system.data_classification.results bir sistem tablosu oluşturur. Hesap yöneticisi bu tabloyu paylaşabilir. Tabloya yalnızca sunucusuz işlem kullandığınızda erişilebilir. Bu tablo hakkında ayrıntılı bilgi için bkz. Veri sınıflandırma sistemi tablo başvurusu.
Önemli
Sonuçlar tablosu system.data_classification.results , meta veri deposunun tamamında tüm sınıflandırma sonuçlarını içerir ve her katalogdaki tablolardan örnek değerler içerir. Bu tabloyu yalnızca örnek değerler de dahil olmak üzere meta veri deposu genelindeki sınıflandırma sonuçlarını görme ayrıcalığı olan kullanıcılarla paylaşmalısınız.
Sonuçlar tablosunu görüntülemek için aşağıdaki izinler gereklidir: USE CATALOG ve USE SCHEMAartı SELECT olarak tabloda.
MANAGE veya SELECT erişimi olan kullanıcılar kataloğun sonuçlarını sayfada görebilir, ancak örnek değerleri göremez.
Veri sınıflandırma sonuçlarına göre idare denetimlerini ayarlama
ABAC ilkesi kullanarak hassas verileri maskele
Databricks, veri sınıflandırma sonuçlarına dayalı idare denetimleri oluşturmak için Unity Kataloğu öznitelik tabanlı erişim denetiminin (ABAC) kullanılmasını önerir.
İlke oluşturmak için Yeni ilke'ye tıklayın. İlke formu, sınıflandırma etiketi gözden geçirilmekte olan sütunları maskeleyecek şekilde önceden doldurulur. Verileri maskelemek için Unity Kataloğu'nda kayıtlı herhangi bir maskeleme işlevini belirtin ve Kaydet'e tıklayın.
Birden çok sınıflandırma etiketini kapsayan bir ilke de oluşturabilirsiniz, sütunkoşulu karşılar olarak değiştirip birden fazla etiket belirterek.
Örneğin, herhangi bir adı, e-postayı veya telefon numarasını maskeleyen "Gizli" adlı bir ilke oluşturmak için, koşulu karşılayanhasTag("class.name") OR hasTag("class.email_address") OR hasTag("class.phone_number") olarak ayarlayın.
GDPR tespit ve silme
Bu örnek not defteri, GDPR uyumluluğu için veri bulma ve silme işlemine yardımcı olması için veri sınıflandırmasını nasıl kullanabileceğinizi gösterir.
Veri sınıflandırma not defterini kullanarak GDPR bulma ve silme
Yanlış etiketleri işleme
Veriler yanlış etiketlenmişse etiketi el ile kaldırabilirsiniz. Etiket, gelecek taramalarda yeniden uygulanmaz.
Kullanıcı arabirimini kullanarak bir etiketi kaldırmak için Katalog Gezgini'nde tabloya gidin ve sütun etiketlerini düzenleyin.
SQL kullanarak etiketi kaldırmak için:
ALTER TABLE catalog.schema.table
ALTER COLUMN col
UNSET TAGS ('class.phone_number', 'class.us_ssn')
Tarama hataları
Tarama sırasında herhangi bir hata oluşursa sonuçlar tablosunun sağ üst kısmında bir Hatalar düğmesi görüntülenir.
Taramada başarısız olan tabloları ve ilişkili hata iletilerini görüntülemek için düğmeye tıklayın.
Varsayılan olarak, tek tek tablolar için oluşan hatalar atlanır ve sonraki gün yeniden denener.
Veri Sınıflandırması giderlerini görüntüleme
Veri Sınıflandırması'nın nasıl faturalandırıldığından anlamak için fiyatlandırma sayfasına bakın. Sorgu çalıştırarak veya kullanım panosunu görüntüleyerek Veri Sınıflandırması ile ilgili giderleri görüntüleyebilirsiniz.
Uyarı
Bu taramalar artımlı olduğundan ve genellikle daha düşük maliyetlere neden olduğundan, ilk tarama aynı katalogdaki sonraki taramalardan daha maliyetlidir.
Sistem tablosundan kullanım görüntüle system.billing.usage
Veri Sınıflandırması giderlerini içinden system.billing.usagesorgulayabilirsiniz. alanlar created_by ve catalog_id isteğe bağlı olarak maliyetleri bölmek için kullanılabilir:
-
created_by: Kullanımı tetikleyen kullanıcının maliyetlerini görmek için ekleyin. -
catalog_id: Maliyetleri kataloğa göre görmek için ekleyin. Katalog kimliği tabloda gösterilirsystem.data_classification.results.
Son 30 gün için örnek sorgu:
SELECT
usage_date,
identity_metadata.created_by,
usage_metadata.catalog_id,
SUM(usage_quantity) AS dbus
FROM
system.billing.usage
WHERE
usage_date >= DATE_SUB(CURRENT_DATE(), 30)
AND billing_origin_product = 'DATA_CLASSIFICATION'
GROUP BY
usage_date,
created_by,
catalog_id
ORDER BY
usage_date DESC,
created_by;
Kullanım gösterge panelinden kullanımı görüntüle
Çalışma alanınızda zaten yapılandırılmış bir kullanım panonuz varsa, 'Veri Sınıflandırması' etiketli Faturalama Kaynağı Projesi'ni seçerek kullanımı filtrelemek için bu panoyu kullanabilirsiniz. Yapılandırılmış bir kullanım kontrol paneliniz yoksa, bir tanesini içeri aktarabilir ve aynı filtrelemeyi uygulayabilirsiniz. Ayrıntılar için bkz . Kullanım panoları.
Desteklenen sınıflandırma etiketleri
Aşağıdaki tablolarda Veri Sınıflandırması tarafından desteklenen Sistem tarafından yönetilen etiketler listelenmiştir .
Genel müşterilerin kullanımına sunulan etiketler
| Sınıf | Açıklama |
|---|---|
| class.credit_card | Kredi kartı numarası |
| class.email_address | E-posta adresi |
| class.iban_code | Uluslararası Banka Hesap Numarası (IBAN) |
| class.ip_address | İnternet Protokolü Adresi (IPv4 veya IPv6) |
| class.location | Yer |
| class.name | Bir kişinin adı |
| class.phone_number | Telefon numarası |
| class.url | URL |
| class.us_bank_number | ABD banka numarası |
| class.sürücü_belgesi_abd | ABD sürücü lisansı |
| class.us_itin | ABD Bireysel Vergi Mükellefi Kimlik Numarası |
| class.us_pasaport | ABD Pasaportu |
| class.us_ssn | ABD Sosyal Güvenlik Numarası |
| class.vin | Araç Kimlik Numarası (VIN) |
Avrupalı müşterilerin kullanımına sunulan etiketler
Bu etiketler Avrupa'daki bölgelerdeki çalışma alanlarında kullanılabilir.
| Sınıf | Açıklama |
|---|---|
| class.de_id_card | Almanca kimlik kartı numarası (Personalausweisnummer) |
| class.de_svnr | Alman sosyal sigorta numarası (Sozialversicherungsnummer) |
| class.de_tax_id | Alman vergi kimliği (Steueridentifikationsnummer) |
| class.uk_nhs | Birleşik Krallık Ulusal Sağlık Hizmeti (NHS) numarası |
| class.uk_nino | Birleşik Krallık Ulusal Sigorta Numarası (NINO) |
Avustralyalı müşterilerin kullanabileceği etiketler
Bu etiketler Avustralya'daki bölgelerdeki çalışma alanlarında kullanılabilir.
| Sınıf | Açıklama |
|---|---|
| class.au_medicare | Avustralya Medicare kart numarası |
| class.au_tfn | Avustralya Vergi Dosya Numarası (TFN) |
Sınırlamalar
- Görünümler ve ölçüm görünümleri desteklenmez. Görünüm mevcut tabloları temel alıyorsa Databricks, hassas veriler içerip içermediklerini görmek için temel tabloları sınıflandırmanızı önerir.