Identifiera pii-entiteter (personligt identifierbar information)

Slutförd

PII-identifiering (personligt identifierbar information) är en funktion som erbjuds av Azure AI Language. Den identifierar, kategoriserar och redigerar personligt identifierbar information (PII) i ostrukturerad text. PII innehåller e-postadresser, telefonnummer, betalningsinformation osv.

Det finns flera sätt att anropa API:et för PII-identifiering. Här använder azure_ai du tillägget för att bearbeta PII från texten i SQL-frågor.

Förutsättningar

Du behöver en flexibel Azure Database for PostgreSQL-server med azure_ai tillägget aktiverat och konfigurerat. Du måste också auktorisera den med Azure Cognitive Services genom att ange en språkresurss nyckel och slutpunkt.

Scenarier

Använd PII-identifiering för flera program, inklusive:

  • Känslighetsetiketter: Kategorisera dokument eller e-postmeddelanden efter känslighet enligt typerna av PII. Text som innehåller telefonnummer kan markeras som konfidentiell, medan kreditkorts- eller bankkontonummer skulle märkas som mycket hemliga.
  • Redigering för support och åtgärder: Många operativa uppgifter, till exempel incidenttriage eller supportroutning, kräver inte personlig information. Företag kan använda PII-redigering för att filtrera kundinformation som inte är nödvändig för en anställds uppgift.
  • Minska personlig information för att minska omedveten bias: Ett företag kan ta bort namn, adresser och annan information för att minimera omedvetet kön eller andra fördomar.

Identifiera PII i SQL med Azure Cognitive Services

Azure Database for PostgreSQL–tillägget för flexibel server azure_ai tillhandahåller användardefinierade funktioner (UDF:er) för att få direkt åtkomst till AI-funktioner inifrån SQL. API:et för PII-identifiering nås med funktionen azure_cognitive.recognize_pii_entities som tillhandahålls av azure_ai:

azure_cognitive.recognize_pii_entities(
 text text,
 language text,
 timeout_ms integer DEFAULT 3600000,
 throw_on_error boolean DEFAULT true,
 domain text DEFAULT 'none'::text,
 disable_service_logs boolean DEFAULT false
)

De obligatoriska parametrarna är text, indata och language, språket där text är skrivet. Till exempel en-us är amerikansk engelska och fr är franska. Se språkstöd för den fullständiga listan över tillgängliga språk.

Som standard stoppas entitetsigenkänning om den inte slutförs på 3 600 000 ms = 1 timme. Du kan anpassa den här fördröjningen genom att ändra timeout_ms.

Om ett fel inträffar är standardbeteendet att utlösa ett undantag, vilket resulterar i en transaktionsåterställning. Du kan inaktivera det här beteendet genom att ange throw_on_error falskt.

Parametern domain kan användas för att anpassa den typ av personuppgifter som identifieras. För närvarande använder standardvärdet none allmän PII och domänen phi identifierar personlig hälsoinformation.

I dokumentationen för Azure Cognitive Services-tillägget finns fullständig parameterdokumentation.

Du kan till exempel anropa den här frågan:

SELECT azure_cognitive.recognize_pii_entities('My phone number is +1555555555, and the address of my office is 16255 NE 36th Way, Redmond, WA 98052.', 'en-us');

Ger det här resultatet:

("My phone number is ***********, and the address of my office is ************************************.","{""(+1555555555,PhoneNumber,\\""\\"",0.8)"",""(\\""16255 NE 36th Way, Redmond, WA 98052\\"",Address,\\""\\"",1)""}")

PII-tjänsten identifierade telefonnumret med en konfidenspoäng på 0,8 och adressen med en konfidenspoäng på 1. Den returnerade också indata med de två PII-datapunkterna redigerade.

Du kan använda tabellkolumner för indatatexten:

SELECT description, azure_cognitive.recognize_pii_entities(description, 'en-us')
FROM listings LIMIT 1;

Vilket returnerar (med \x aktiverat för utökad visning):

recognize_pii_entities | ("New modern house built in 2013. Spectacular sunset/water views, light, rooftop deck and lounge area, hot tub, 5 bedrooms, gourmet kitchen. Perfect for 2-3 families, walk to downtown. Located in highly desirable Queen Anne neighborhood. Our house is modern, light and fresh with a warm simple palette accented with barnwood, steel and concrete. Open living spaces for entertaining, gourmet kitchen, deck off the kitchen, reading nook, half bath and smaller tv room off kitchen. Fireplace with sofa and sitting area. Basement room is great for ****...this room has patio access and a garage door that opens into the space with basketball hoop right outside. A queen bedroom and full bath are in the basement with concrete heated floors. A queen sleeper sofa is in the tv area in the basement. This room has a door if privacy is needed. Great for a second ****** with ****. The 2nd floor has 4 bedrooms (one queen in master, one twin bedroom, another bedroom has twin bunk beds and the last","{""(kids,PersonType,\\""\\"",0.73)"",""(family,PersonType,\\""\\"",0.71)"",""(kids,PersonType,\\""\\"",0.65)""}")

Sammanfattning

PII-identifiering identifierar och kategoriserar personligt identifierbar information i ostrukturerad indatatext. Azure Cognitive Services-språkmodellen utför tunga lyft, och azure_ai tillägget för Azure Database for PostgreSQL tillhandahåller API:et azure_cognitive.recognize_pii_entities för att identifiera och redigera PII direkt i SQL-frågor.