Entiteiten met persoonsgegevens (PII) herkennen

Voltooid

PII-detectie (persoonlijk identificeerbare informatie) is een functie die wordt aangeboden door Azure Language. Het identificeert, categoriseert en redacteert persoonlijke identificeerbare informatie (PII) in ongestructureerde tekst. PII bevat e-mailadressen, telefoonnummers, betalingsgegevens, enzovoort.

Er zijn verschillende manieren om de PII-detectie-API aan te roepen. Hier gebruikt u de extensie voor het azure_ai verwerken van PII uit de tekst in SQL-query's.

Vereiste voorwaarden

U hebt een flexibele Azure Database for PostgreSQL-server nodig, waarbij de azure_ai extensie is ingeschakeld en geconfigureerd. U moet deze ook autoriseren met Azure Cognitive Services door de sleutel en het eindpunt van een taalresource in te stellen.

Scenariën

PII-detectie gebruiken voor verschillende toepassingen, waaronder:

  • Vertrouwelijkheidslabels: categoriseer documenten of e-mailberichten op basis van gevoeligheid op basis van de typen PII. Tekst met telefoonnummers kan worden gemarkeerd als vertrouwelijk, terwijl creditcard- of bankrekeningnummers zeer geheim worden gelabeld.
  • Redactie voor operationele ondersteuning: Veel operationele taken, zoals incidenttriage of ondersteuningsdoorverwijzing, vereisen geen persoonlijke gegevens. Bedrijven kunnen piI-redaction gebruiken om klantgegevens te filteren die niet nodig zijn voor de taak van een werknemer.
  • Verminder persoonlijke gegevens om onbewuste vooroordelen te verminderen: een bedrijf kan namen, adressen en andere informatie verwijderen om onbewust geslacht of andere vooroordelen te beperken.

PII detecteren in SQL met Azure Cognitive Services

De flexibele server van Azure Database for PostgreSQL azure_ai-extensie biedt door de gebruiker gedefinieerde functies (UDF's) voor toegang tot AI-mogelijkheden vanuit SQL rechtstreeks. De PII-detectie-API wordt geopend met de azure_cognitive.recognize_pii_entities functie die wordt geleverd door azure_ai:

azure_cognitive.recognize_pii_entities(
 text text,
 language text,
 timeout_ms integer DEFAULT 3600000,
 throw_on_error boolean DEFAULT true,
 domain text DEFAULT 'none'::text,
 disable_service_logs boolean DEFAULT false
)

De vereiste parameters zijn text, de invoer en language, de taal waarin de text taal is geschreven. Is bijvoorbeeld en-us Amerikaans Engels en fr frans. Zie taalondersteuning voor de volledige lijst met beschikbare talen.

Entiteitsherkenning wordt standaard gestopt als deze niet binnen 3.600.000 ms = 1 uur eindigt. U kunt deze vertraging aanpassen door timeout_ms te wijzigen.

Als er een fout optreedt, is het standaardgedrag het gooien van een uitzondering, wat resulteert in een transactierollback. U kunt dit gedrag uitschakelen door in te stellen throw_on_error op False.

De domain parameter kan worden gebruikt om het soort persoonsgegevens aan te passen dat wordt geïdentificeerd. De standaardinstelling none maakt momenteel gebruik van algemene PII en het domein phi identificeert persoonlijke statusgegevens.

Zie de documentatie voor de Azure Cognitive Services-extensie voor volledige parameterdocumentatie.

U kunt bijvoorbeeld deze query aanroepen:

SELECT azure_cognitive.recognize_pii_entities('My phone number is +1555555555, and the address of my office is 16255 NE 36th Way, Redmond, WA 98052.', 'en-us');

Geeft dit resultaat:

("My phone number is ***********, and the address of my office is ************************************.","{""(+1555555555,PhoneNumber,\\""\\"",0.8)"",""(\\""16255 NE 36th Way, Redmond, WA 98052\\"",Address,\\""\\"",1)""}")

De PII-service heeft het telefoonnummer gedetecteerd met een betrouwbaarheidsscore van 0,8 en het adres met een betrouwbaarheidsscore van 1. Ook werd de invoer teruggegeven met de twee PII-gegevenspunten die zijn verwijderd.

U kunt tabelkolommen gebruiken voor de invoertekst:

SELECT description, azure_cognitive.recognize_pii_entities(description, 'en-us')
FROM listings LIMIT 1;

Welke retourneert (met \x ingeschakeld voor uitgebreide weergave):

recognize_pii_entities | ("New modern house built in 2013. Spectacular sunset/water views, light, rooftop deck and lounge area, hot tub, 5 bedrooms, gourmet kitchen. Perfect for 2-3 families, walk to downtown. Located in highly desirable Queen Anne neighborhood. Our house is modern, light and fresh with a warm simple palette accented with barnwood, steel and concrete. Open living spaces for entertaining, gourmet kitchen, deck off the kitchen, reading nook, half bath and smaller tv room off kitchen. Fireplace with sofa and sitting area. Basement room is great for ****...this room has patio access and a garage door that opens into the space with basketball hoop right outside. A queen bedroom and full bath are in the basement with concrete heated floors. A queen sleeper sofa is in the tv area in the basement. This room has a door if privacy is needed. Great for a second ****** with ****. The 2nd floor has 4 bedrooms (one queen in master, one twin bedroom, another bedroom has twin bunk beds and the last","{""(kids,PersonType,\\""\\"",0.73)"",""(family,PersonType,\\""\\"",0.71)"",""(kids,PersonType,\\""\\"",0.65)""}")

Samenvatting

PiI-detectie identificeert en categoriseert persoonsgegevens in ongestructureerde invoertekst. Het taalmodel van Azure Cognitive Services voert het zware werk uit en de azure_ai extensie voor Azure Database for PostgreSQL biedt de azure_cognitive.recognize_pii_entities API om PII rechtstreeks vanuit SQL-query's te detecteren en redacteren.