Rozpoznawanie jednostek danych osobowych (PII)

Ukończone

Wykrywanie PII (danych osobowych) to funkcja oferowana przez Azure Language. Identyfikuje, kategoryzuje i redaguje dane osobowe w tekście bez struktury. Dane osobowe obejmują adresy e-mail, numery telefonów, informacje o płatności itp.

Istnieje kilka sposobów wywoływania interfejsu API wykrywania danych PII. W tym miejscu używasz rozszerzenia azure_ai do przetwarzania danych osobowych z tekstu w zapytaniach SQL.

Wymagania wstępne

Potrzebujesz elastycznego serwera usługi Azure Database for PostgreSQL z azure_ai rozszerzeniem włączonym i skonfigurowanym. Należy również autoryzować ją za pomocą usług Azure Cognitive Services, ustawiając klucz i punkt końcowy zasobu języka.

Scenariusze

Użyj wykrywania PII w przypadku kilku zastosowań, w tym:

  • Etykiety poufności: kategoryzuj dokumenty lub wiadomości e-mail według poufności zgodnie z typami danych piI. Tekst zawierający numery telefonów może być oznaczony jako poufny, natomiast numery kart kredytowych lub kont bankowych zostałyby oznaczone jako wysoce tajne.
  • Redakcja wsparcia i operacji: Wiele zadań operacyjnych, takich jak klasyfikacja zdarzeń lub kierowanie wsparcia technicznego, nie wymaga danych osobowych. Firmy mogą używać redagowania PII do filtrowania informacji o klientach, które są niepotrzebne przy wykonywaniu zadań pracownika.
  • Ograniczenie informacji osobistych w celu zmniejszenia nieświadomych uprzedzeń: firma może usunąć nazwiska, adresy i inne informacje, aby pomóc złagodzić nieświadome uprzedzenia ze względu na płeć lub inne czynniki.

Wykrywanie danych osobowych (PII) w SQL przy użyciu Azure Cognitive Services

Rozszerzenie serwera elastycznego usługi Azure Database for PostgreSQL azure_ai udostępnia funkcje zdefiniowane przez użytkownika (UDF) umożliwiające bezpośredni dostęp do funkcji sztucznej inteligencji z poziomu programu SQL. Dostęp do interfejsu API wykrywania danych osobowych jest uzyskiwany za pomocą funkcji azure_cognitive.recognize_pii_entities udostępnionej przez azure_ai.

azure_cognitive.recognize_pii_entities(
 text text,
 language text,
 timeout_ms integer DEFAULT 3600000,
 throw_on_error boolean DEFAULT true,
 domain text DEFAULT 'none'::text,
 disable_service_logs boolean DEFAULT false
)

Wymagane parametry to text, dane wejściowe i language, język, w którym jest zapisywany text . Na przykład en-us jest to angielski USA i fr francuski. Zobacz Obsługa języków , aby uzyskać pełną listę dostępnych języków.

Domyślnie rozpoznawanie jednostek jest zatrzymywane, jeśli nie zostanie ukończone w ciągu 3 600 000 ms, czyli 1 godziny. To opóźnienie można dostosować, zmieniając zmienną timeout_ms.

Jeśli wystąpi błąd, domyślnym zachowaniem jest zgłoszenie wyjątku, co spowoduje wycofanie transakcji. To zachowanie można wyłączyć, ustawiając wartość throw_on_error false.

Parametr domain może służyć do dostosowywania rodzaju zidentyfikowanych danych osobowych. Obecnie wartość domyślna none używa ogólnych danych osobowych, a domena identyfikuje informacje o kondycji phi osobistej.

Aby uzyskać pełną dokumentację parametrów, zobacz dokumentację rozszerzenia usług Azure Cognitive Services .

Na przykład wywołanie tego zapytania:

SELECT azure_cognitive.recognize_pii_entities('My phone number is +1555555555, and the address of my office is 16255 NE 36th Way, Redmond, WA 98052.', 'en-us');

Daje ten wynik:

("My phone number is ***********, and the address of my office is ************************************.","{""(+1555555555,PhoneNumber,\\""\\"",0.8)"",""(\\""16255 NE 36th Way, Redmond, WA 98052\\"",Address,\\""\\"",1)""}")

Usługa PII wykryła numer telefonu z współczynnikiem ufności 0,8 i adresem z współczynnikiem ufności 1. Zwróciła również dane wejściowe z dwoma punktami danych PII usuniętymi.

Możesz użyć kolumn tabeli dla tekstu wejściowego:

SELECT description, azure_cognitive.recognize_pii_entities(description, 'en-us')
FROM listings LIMIT 1;

Które zwraca (z włączoną aktywacją wyświetlania rozszerzonego \x):

recognize_pii_entities | ("New modern house built in 2013. Spectacular sunset/water views, light, rooftop deck and lounge area, hot tub, 5 bedrooms, gourmet kitchen. Perfect for 2-3 families, walk to downtown. Located in highly desirable Queen Anne neighborhood. Our house is modern, light and fresh with a warm simple palette accented with barnwood, steel and concrete. Open living spaces for entertaining, gourmet kitchen, deck off the kitchen, reading nook, half bath and smaller tv room off kitchen. Fireplace with sofa and sitting area. Basement room is great for ****...this room has patio access and a garage door that opens into the space with basketball hoop right outside. A queen bedroom and full bath are in the basement with concrete heated floors. A queen sleeper sofa is in the tv area in the basement. This room has a door if privacy is needed. Great for a second ****** with ****. The 2nd floor has 4 bedrooms (one queen in master, one twin bedroom, another bedroom has twin bunk beds and the last","{""(kids,PersonType,\\""\\"",0.73)"",""(family,PersonType,\\""\\"",0.71)"",""(kids,PersonType,\\""\\"",0.65)""}")

Podsumowanie

Wykrywanie danych osobowych identyfikuje i kategoryzuje dane osobowe w tekście wejściowym bez struktury. Model językowy usług Azure Cognitive Services wykonuje największą część pracy, a rozszerzenie azure_ai dla usługi Azure Database for PostgreSQL udostępnia azure_cognitive.recognize_pii_entities interfejs API do wykrywania i zaciemniania PII bezpośrednio w zapytaniach SQL.