Rozpoznávání identifikovatelných osobních údajů (PII) entit

Dokončeno

Detekce piI (identifikovatelných osobních údajů) je funkce , kterou nabízí jazyk Azure. Identifikuje, kategorizuje a rediguje identifikovatelné osobní údaje (PII) v nestrukturovaném textu. PII zahrnuje e-mailové adresy, telefonní čísla, platební údaje atd.

Existuje několik způsobů, jak používat rozhraní API pro detekci PII. V této části použijete azure_ai rozšíření ke zpracování PII z textu v dotazech SQL.

Požadavky

Potřebujete flexibilní server Azure Database for PostgreSQL s povoleným azure_aia nakonfigurovaným rozšířením. Také jej musíte autorizovat ve službě Azure Cognitive Services nastavením klíče a koncového bodu jazykového prostředku.

Scénáře

Detekce PII se používá pro několik aplikací, mezi které patří:

  • Popisky citlivosti: Kategorizovat dokumenty nebo e-maily podle citlivosti podle typů PII. Text obsahující telefonní čísla může být označený jako důvěrný, zatímco čísla platebních karet nebo bankovních účtů by byla označena jako vysoce tajná.
  • Redakce pro podporu a provoz: Mnoho provozních úkolů, jako je třídění incidentů nebo směrování podpory, nevyžaduje osobní informace. Společnosti můžou pomocí redakce PII filtrovat informace zákazníků, které pro úkol zaměstnance není nutné.
  • Snížení osobních údajů k omezení nevědomých předsudků: Společnost by mohla odstranit jména, adresy a další informace, aby pomohla zmírnit nevědomé genderové nebo jiné předsudky.

Detekce PII v SQL s využitím Azure Cognitive Services

Flexibilní server Azure Database for PostgreSQL azure_ai rozšíření poskytuje uživatelem definované funkce (UDF) pro přímý přístup k funkcím AI z SQL. K rozhraní API pro rozpoznávání PII se přistupuje pomocí azure_cognitive.recognize_pii_entities funkce poskytované azure_ai:

azure_cognitive.recognize_pii_entities(
 text text,
 language text,
 timeout_ms integer DEFAULT 3600000,
 throw_on_error boolean DEFAULT true,
 domain text DEFAULT 'none'::text,
 disable_service_logs boolean DEFAULT false
)

Požadované parametry jsou text, vstup a languagejazyk, ve kterém text je zapsán. Například en-us angličtina v USA a fr francouzština. Úplný seznam dostupných jazyků najdete v podpoře jazyků .

Ve výchozím nastavení je rozpoznávání entit zastaveno, pokud se nedokončí do 3 600 000 ms = 1 hodina. Toto zpoždění můžete přizpůsobit změnou timeout_ms.

Pokud dojde k chybě, výchozí chování je vyvolání výjimky, což vede k vrácení transakce zpět. Toto chování můžete zakázat nastavením throw_on_error na false.

Parametr domain lze použít k přizpůsobení druhu identifikovaných osobních údajů. Výchozí nastavení v none současné době používá obecné osobně identifikovatelné informace a doména phi identifikuje osobní zdravotní informace.

Kompletní dokumentaci k parametrům najdete v dokumentaci k rozšíření Azure Cognitive Services .

Například vyvolání tohoto dotazu:

SELECT azure_cognitive.recognize_pii_entities('My phone number is +1555555555, and the address of my office is 16255 NE 36th Way, Redmond, WA 98052.', 'en-us');

Vrátí tento výsledek:

("My phone number is ***********, and the address of my office is ************************************.","{""(+1555555555,PhoneNumber,\\""\\"",0.8)"",""(\\""16255 NE 36th Way, Redmond, WA 98052\\"",Address,\\""\\"",1)""}")

Služba PII zjistila telefonní číslo se skóre spolehlivosti 0,8 a adresou se skóre spolehlivosti 1. Také vrátil vstup se dvěma datovými body osobních identifikovatelných údajů, které byly redigovány.

Pro vstupní text můžete použít sloupce tabulky:

SELECT description, azure_cognitive.recognize_pii_entities(description, 'en-us')
FROM listings LIMIT 1;

Která vrací (s povoleným rozšířeným displejem \x ):

recognize_pii_entities | ("New modern house built in 2013. Spectacular sunset/water views, light, rooftop deck and lounge area, hot tub, 5 bedrooms, gourmet kitchen. Perfect for 2-3 families, walk to downtown. Located in highly desirable Queen Anne neighborhood. Our house is modern, light and fresh with a warm simple palette accented with barnwood, steel and concrete. Open living spaces for entertaining, gourmet kitchen, deck off the kitchen, reading nook, half bath and smaller tv room off kitchen. Fireplace with sofa and sitting area. Basement room is great for ****...this room has patio access and a garage door that opens into the space with basketball hoop right outside. A queen bedroom and full bath are in the basement with concrete heated floors. A queen sleeper sofa is in the tv area in the basement. This room has a door if privacy is needed. Great for a second ****** with ****. The 2nd floor has 4 bedrooms (one queen in master, one twin bedroom, another bedroom has twin bunk beds and the last","{""(kids,PersonType,\\""\\"",0.73)"",""(family,PersonType,\\""\\"",0.71)"",""(kids,PersonType,\\""\\"",0.65)""}")

Shrnutí

Detekce PII identifikuje a kategorizuje identifikovatelné osobní údaje v nestrukturovaném vstupním textu. Jazykový model Azure Cognitive Services provádí těžkou práci a azure_ai rozšíření pro Azure Database for PostgreSQL poskytuje azure_cognitive.recognize_pii_entities rozhraní API pro detekci a redigování osobních údajů přímo v rámci SQL dotazů.