Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować się zalogować lub zmienić katalog.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Ważne
Ta funkcja jest dostępna w publicznej wersji testowej.
Na tej stronie opisano sposób używania Databricks Data Classification w Unity Catalog do automatycznego klasyfikowania i oznaczania poufnych danych.
Wykazy danych mogą mieć ogromną ilość danych, często zawierających znane i nieznane dane poufne. Kluczowe jest, aby zespoły ds. danych rozumiały, jaki rodzaj wrażliwych danych znajduje się w każdej tabeli, aby mogły zarówno zarządzać, jak i demokratyzować dostęp do tych danych.
Aby rozwiązać ten problem, klasyfikacja danych usługi Databricks używa agenta sztucznej inteligencji do automatycznego klasyfikowania i tagowania tabel w katalogu. Dzięki temu można odkrywać poufne dane i stosować mechanizmy kontroli zarządzania nad wynikami przy użyciu narzędzi, takich jak kontrola dostępu oparta na atrybutach (ABAC) katalogu Unity. Aby uzyskać listę obsługiwanych tagów, zobacz Obsługiwane tagi klasyfikacji.
Korzystając z tej funkcji, możesz:
- Klasyfikowanie danych: Silnik używa systemu agentowej sztucznej inteligencji do automatycznego klasyfikowania i oznaczania dowolnych tabel w katalogu Unity.
- Optymalizowanie kosztów dzięki inteligentnemu skanowaniu: System inteligentnie określa, kiedy skanować dane, wykorzystując katalog Unity i silnik analizy danych. Oznacza to, że skanowanie jest przyrostowe i zoptymalizowane, aby zapewnić klasyfikację wszystkich nowych danych bez potrzeby ręcznej konfiguracji.
- Przeglądanie i ochrona poufnych danych: wyświetlane wyniki ułatwiają wyświetlanie wyników klasyfikacji i ochronę poufnych danych przez tagowanie i tworzenie zasad kontroli dostępu dla każdej klasy.
Ważne
Klasyfikacja danych usługi Databricks używa domyślnego magazynu do przechowywania wyników klasyfikacji. Nie są naliczane opłaty za magazyn.
Klasyfikacja danych usługi Databricks używa dużego modelu językowego (LLM), aby pomóc w klasyfikacji.
Wymagania
Uwaga / Notatka
Klasyfikacja danych jest funkcją wersji zapoznawczej na poziomie obszaru roboczego i może być zarządzana tylko przez administratora obszaru roboczego lub konta. Aby uzyskać instrukcje, zobacz Zarządzanie wersjami zapoznawczami usługi Azure Databricks.
Ważne
Model obsługujący tę funkcję jest udostępniany za pomocą interfejsów API Mosaic AI Model Serving Foundation Model. Llama 3.1 jest licencjonowana na licencji Community License Llama 3.1, Copyright © Meta Platforms, Inc. Wszelkie prawa zastrzeżone. Aby uzyskać więcej informacji, zobacz Odpowiednie licencje i postanowienia dla deweloperów modeli .
Jeśli modele pojawią się w przyszłości, które działają lepiej zgodnie z wewnętrznymi testami porównawczymi usługi Databricks, usługa Databricks może zmienić modele i zaktualizować dokumentację.
- Musisz mieć włączone przetwarzanie bezserwerowe. Zobacz Połącz się z bezserwerową chmurą obliczeniową.
- Aby włączyć klasyfikację danych, musisz posiadać wykaz lub mieć na nim uprawnienia
USE_CATALOGiMANAGE. - Aby wyświetlić tabelę wyników, musisz mieć następujące uprawnienia:
USE CATALOGiUSE SCHEMA, plusSELECTw tabeli. Zobacz tabelę systemu wyników.
Używanie klasyfikacji danych
Aby użyć klasyfikacji danych w wykazie:
Przejdź do katalogu i kliknij kartę Szczegóły .
Kliknij przełącznik Klasyfikacja danych , aby ją włączyć.
Zostanie wyświetlone okno dialogowe Włączanie klasyfikacji danych . Domyślnie wszystkie schematy są uwzględniane. Aby uwzględnić tylko niektóre schematy, wybierz je w menu rozwijanym Do uwzględnienia.
Kliknij przycisk Włącz.
Spowoduje to utworzenie zadania w tle, które przyrostowo skanuje wszystkie tabele w wykazie lub wybranych schematach.
Aparat klasyfikacji opiera się na inteligentnym skanowaniu w celu określenia, kiedy należy skanować tabelę. Nowe tabele i kolumny w wykazie są zwykle skanowane w ciągu 24 godzin od utworzenia.
Wyświetlanie wyników klasyfikacji
Aby wyświetlić wyniki klasyfikacji, kliknij pozycję Zobacz wyniki obok przełącznika.
Zostanie otwarta strona wyników zawierająca wyniki klasyfikacji dla wszystkich tabel w wykazie. Aby wybrać inny wykaz, użyj selektora w lewym górnym rogu strony. Wymagany jest bezserwerowy magazyn SQL Warehouse, który pojawia się w prawym górnym rogu strony.
Strona wyników zawiera listę wszystkich tagów klasyfikacji, które zostały zidentyfikowane w wykazie. Wszystkie istniejące zasady ABAC odwołujące się do tagów systemu klasyfikacji danych (class.xx) są wyświetlane w tabeli.
Aby przejrzeć wyniki dla określonego tagu klasyfikacji, kliknij pozycję Przejrzyj w najbardziej prawej kolumnie odpowiedniego wiersza.
Pojawi się panel, wyświetlając tabele, dla których klasyfikacja danych wykryła tag klasyfikacji z dużą pewnością. Przejrzyj tabele, kolumny i przykładowe wartości. Przykładowe wartości są wyświetlane tylko wtedy, gdy masz dostęp do tabeli wyników. Zobacz tabelę systemu wyników.
Jeśli zidentyfikowane kolumny pasują do Twoich oczekiwań, możesz włączyć automatyczne tagowanie dla tagu klasyfikacji dla tego wykazu. Po włączeniu automatycznego tagowania wszystkie istniejące i przyszłe wykrycia tej klasyfikacji są oznaczane.
Aby włączyć automatyczne tagowanie, przełącz automatyczne tagowanie za pomocą polecenia .... Później można wyłączyć automatyczne tagowanie przy użyciu tego samego przełącznika. Po wyłączeniu tagowania nie są stosowane żadne przyszłe tagi, ale istniejące tagi nie są usuwane.
Uwaga / Notatka
Po włączeniu automatycznego tagowania, tagi nie są natychmiast uzupełniane. Zostaną one wypełnione w następnym skanowaniu, co powinno nastąpić w ciągu 24 godzin. Kolejne klasyfikacje zostaną oznaczone natychmiast.
Tabela systemu wyników
Klasyfikacja danych tworzy tabelę systemową o nazwie system.data_classification.results do przechowywania wyników, które domyślnie są dostępne tylko dla administratora konta. Administrator konta może udostępnić tę tabelę. Tabela jest dostępna tylko wtedy, gdy używasz bezserwerowych obliczeń. Aby uzyskać szczegółowe informacje na temat tej tabeli, zobacz Dokumentacja tabeli systemu klasyfikacji danych.
Ważne
Tabela system.data_classification.results wyników zawiera wszystkie wyniki klasyfikacji w całym magazynie metadanych i zawiera przykładowe wartości z tabel w każdym wykazie. Tę tabelę należy udostępnić tylko użytkownikom uprzywilejowanym, aby wyświetlić wyniki klasyfikacji dla całego magazynu metadanych, w tym przykładowe wartości.
Do wyświetlenia tabeli wyników są wymagane następujące uprawnienia: USE CATALOG, USE SCHEMA, oraz SELECT w tabeli. Użytkownicy z dostępem do katalogu MANAGE lub SELECT mogą wyświetlać wyniki na stronie, ale nie mogą widzieć przykładowych wartości.
Skonfiguruj kontrole zarządzania na podstawie wyników klasyfikacji danych
Maskuj poufne dane przy użyciu zasad ABAC
Databricks zaleca używanie atrybutowej kontroli dostępu (ABAC) w Unity Catalog w celu tworzenia mechanizmów kontroli ładu na podstawie wyników klasyfikacji danych.
Aby utworzyć zasady, kliknij pozycję Nowe zasady. Formularz zasad jest wstępnie wypełniony w celu maskowania kolumn z przeglądanym tagiem klasyfikacji. Aby zamaskować dane, określ dowolną funkcję maskowania zarejestrowaną w katalogu Unity i kliknij przycisk Zapisz.
Można również utworzyć zasady, które obejmują wiele tagów klasyfikacji, zmieniając kolumnę Whenna spełnia warunek i podając wiele tagów.
Aby na przykład utworzyć politykę o nazwie "Poufne", która maskuje każdą nazwę, adres e-mail lub numer telefonu, ustaw warunek spełnia wartośćhasTag("class.name") OR hasTag("class.email_address") OR hasTag("class.phone_number").
Odnajdywanie i usuwanie danych zgodnie z RODO
W tym przykładzie notesie pokazano, jak można użyć klasyfikacji danych, aby ułatwić odnajdywanie i usuwanie danych w celu zapewnienia zgodności z RODO.
Odnajdywanie i usuwanie RODO przy użyciu notesu klasyfikacji danych
Jak obsługiwać niepoprawne tagi
Jeśli dane są niepoprawnie oznakowane, możesz ręcznie usunąć tag. Tag nie zostanie ponownie zaaplikowany w przyszłych skanowaniach.
Aby usunąć tag przy użyciu interfejsu użytkownika, przejdź do tabeli w Eksploratorze wykazu i edytuj tagi kolumn.
Aby usunąć tag przy użyciu języka SQL:
ALTER TABLE catalog.schema.table
ALTER COLUMN col
UNSET TAGS ('class.phone_number', 'class.us_ssn')
Błędy skanowania
Jeśli podczas skanowania wystąpią jakiekolwiek błędy, w prawym górnym rogu tabeli wyników pojawi się przycisk Błędy .
Kliknij przycisk, aby wyświetlić tabele, które zakończyły się niepowodzeniem skanowania i skojarzonymi komunikatami o błędach.
Domyślnie błędy, które wystąpiły dla poszczególnych tabel, są pomijane i ponawiane następnego dnia.
Wyświetlanie wydatków dotyczących klasyfikacji danych
Aby dowiedzieć się, jak jest rozliczana klasyfikacja danych, zobacz stronę cennika. Możesz wyświetlić wydatki związane z klasyfikacją danych, uruchamiając zapytanie lub wyświetlając pulpit nawigacyjny użycia.
Uwaga / Notatka
Początkowe skanowanie jest bardziej kosztowne niż kolejne skanowania w tym samym wykazie, ponieważ te skanowania są przyrostowe i zwykle wiążą się z niższymi kosztami.
Wyświetl użycie z tabeli systemowej system.billing.usage
Możesz wykonać zapytanie dotyczące wydatków na klasyfikację danych z witryny system.billing.usage. Pola created_by i catalog_id mogą służyć opcjonalnie do podziału kosztów:
-
created_by: Uwzględnij, aby zobaczyć koszty poniesione przez użytkownika, który zainicjował użycie. -
catalog_id: Uwzględnij, aby wyświetlić koszty według katalogu. Identyfikator katalogu jest wyświetlany w tabelisystem.data_classification.results.
Przykładowe zapytanie z ostatnich 30 dni:
SELECT
usage_date,
identity_metadata.created_by,
usage_metadata.catalog_id,
SUM(usage_quantity) AS dbus
FROM
system.billing.usage
WHERE
usage_date >= DATE_SUB(CURRENT_DATE(), 30)
AND billing_origin_product = 'DATA_CLASSIFICATION'
GROUP BY
usage_date,
created_by,
catalog_id
ORDER BY
usage_date DESC,
created_by;
Wyświetlanie użycia z pulpitu nawigacyjnego
Jeśli masz już panel kontrolny użycia skonfigurowany w obszarze roboczym, możesz go użyć do filtrowania użycia, wybierając projekt rozliczeniowy oznaczony jako "Klasyfikacja danych". Jeśli nie masz skonfigurowanego pulpitu kontrolnego użycia, możesz go zaimportować i zastosować to samo filtrowanie. Aby uzyskać szczegółowe informacje, zobacz Panele użycia.
Obsługiwane tagi klasyfikacji
W poniższych tabelach wymieniono tagi zarządzane przez system obsługiwane przez klasyfikację danych.
Tagi dostępne dla klientów globalnych
| Klasa | Opis |
|---|---|
| class.credit_card | Numer karty kredytowej |
| klasa.adres_email | Adres e-mail |
| class.iban_code | Numer konta bankowego (IBAN) |
| class.ip_address | Adres protokołu internetowego (IPv4 lub IPv6) |
| klasa.lokalizacja | Lokalizacja |
| class.name | Imię i nazwisko osoby |
| class.phone_number | Numer telefonu |
| class.url | adres URL |
| class.us_bank_number | Numer banku USA |
| class.us_driver_license | Prawo jazdy w USA |
| class.us_itin | Amerykański indywidualny numer identyfikacyjny podatnika |
| class.us_passport | Paszport USA |
| class.us_ssn | Amerykański numer ubezpieczenia społecznego |
| class.vin | Numer identyfikacyjny pojazdu (VIN) |
Tagi dostępne dla klientów europejskich
Te tagi są dostępne w obszarach roboczych w regionach Europy.
| Klasa | Opis |
|---|---|
| class.de_id_card | Niemiecki numer karty identyfikacyjnej (Personalausweisnummer) |
| class.de_svnr | Niemiecki numer ubezpieczenia społecznego (Sozialversicherungsnummer) |
| class.de_tax_id | Niemiecki identyfikator podatkowy (Steueridentifikationsnummer) |
| class.uk_nhs | Numer brytyjskiej służby zdrowia narodowego (NHS) |
| class.uk_nino | Brytyjski numer ubezpieczenia narodowego (NINO) |
Tagi dostępne dla klientów australijskich
Te tagi są dostępne w obszarach roboczych w regionach w Australii.
| Klasa | Opis |
|---|---|
| class.au_medicare | Australijski numer karty Medicare |
| class.au_tfn | Australijski numer pliku podatkowego (TFN) |
Ograniczenia
- Widoki i widoki metryk nie są obsługiwane. Jeśli widok jest oparty na istniejących tabelach, usługa Databricks zaleca klasyfikowanie bazowych tabel, aby sprawdzić, czy zawierają poufne dane.