Erkennen von PII-Entitäten (Personally Identifiable Information, personenbezogene Informationen)
Die Erkennung personenbezogener Informationen (personenbezogene Informationen) ist ein Feature , das von Azure Language angeboten wird. Es identifiziert, kategorisiert und redagiert personenbezogene Informationen (PII) in unstrukturiertem Text. PII umfasst E-Mail-Adressen, Telefonnummern, Zahlungsinformationen usw.
Es gibt mehrere Möglichkeiten, die PII-Erkennungs-API aufzurufen. Hier verwenden Sie die azure_ai Erweiterung, um PII aus dem Text in SQL-Abfragen zu verarbeiten.
Voraussetzungen
Sie benötigen einen flexiblen Azure-Datenbankserver für PostgreSQL mit aktivierter azure_aiund konfigurierter Erweiterung. Sie müssen sie auch mit Azure Cognitive Services autorisieren , indem Sie den Schlüssel und Endpunkt einer Sprachressource festlegen.
Szenarien
Verwenden der PII-Erkennung für mehrere Anwendungen, einschließlich:
- Vertraulichkeitsbezeichnungen: Kategorisieren Sie Dokumente oder E-Mails nach Vertraulichkeit gemäß den Arten von personenbezogenen Informationen. Text, der Telefonnummern enthält, ist möglicherweise vertraulich gekennzeichnet, während Kreditkarten- oder Bankkontonummern streng geheim gekennzeichnet wären.
- Bearbeitung für Support und Betrieb: Viele operative Aufgaben, z. B. Incidentselektierung oder Supportrouting, erfordern keine personenbezogenen Informationen. Unternehmen können PII-Redaction verwenden, um Kundeninformationen zu filtern, die für die Aufgabe eines Mitarbeiters unnötig sind.
- Reduzieren Sie persönliche Informationen, um unbewusste Verzerrungen zu reduzieren: Ein Unternehmen könnte Namen, Adressen und andere Informationen entfernen, um unbewusstes Geschlecht oder andere Verzerrungen zu mindern.
Erkennen von PII in SQL mit Azure Cognitive Services
Die Azure-Datenbank für PostgreSQL flexible Server-azure_ai-Erweiterung bietet benutzerdefinierte Funktionen (UDFs), um direkt in SQL auf KI-Funktionen zuzugreifen. Mit der von azure_cognitive.recognize_pii_entities bereitgestellten Funktion wird auf die PII-Erkennungs-API zugegriffen:azure_ai
azure_cognitive.recognize_pii_entities(
text text,
language text,
timeout_ms integer DEFAULT 3600000,
throw_on_error boolean DEFAULT true,
domain text DEFAULT 'none'::text,
disable_service_logs boolean DEFAULT false
)
Die erforderlichen Parameter sind text, die Eingabe, und language, die Sprache, in der die text geschrieben wird. Beispielsweise en-us ist US-Englisch und fr französisch. Siehe Sprachunterstützung für die vollständige Liste der verfügbaren Sprachen.
Die Entitätserkennung wird standardmäßig beendet, wenn sie nicht in 3.600.000 ms = 1 Stunde abgeschlossen ist. Sie können diese Verzögerung anpassen, indem Sie timeout_ms ändern.
Wenn ein Fehler auftritt, besteht das Standardverhalten darin, eine Ausnahme auszuwerfen, was zu einem Transaktionsrollback führt. Sie können dieses Verhalten deaktivieren, indem Sie auf "false" festlegen throw_on_error .
Der domain Parameter kann verwendet werden, um die Art der identifizierten personenbezogenen Daten anzupassen. Derzeit verwendet die Standardeinstellung none allgemeine persönlich identifizierbare Informationen (PII), und die Domäne phi identifiziert persönliche Gesundheitsinformationen.
Eine vollständige Parameterdokumentation finden Sie in der Dokumentation zur Azure Cognitive Services-Erweiterung .
Wenn Sie beispielsweise diese Abfrage aufrufen:
SELECT azure_cognitive.recognize_pii_entities('My phone number is +1555555555, and the address of my office is 16255 NE 36th Way, Redmond, WA 98052.', 'en-us');
Gibt dieses Ergebnis an:
("My phone number is ***********, and the address of my office is ************************************.","{""(+1555555555,PhoneNumber,\\""\\"",0.8)"",""(\\""16255 NE 36th Way, Redmond, WA 98052\\"",Address,\\""\\"",1)""}")
Der PII-Dienst hat die Telefonnummer mit einem Konfidenzscore von 0,8 und die Adresse mit einem Konfidenzscore von 1 erkannt. Außerdem wurde die Eingabe mit den beiden unkenntlich gemachten PII-Datenpunkten zurückgegeben.
Sie können Tabellenspalten für den Eingabetext verwenden:
SELECT description, azure_cognitive.recognize_pii_entities(description, 'en-us')
FROM listings LIMIT 1;
Dadurch wird Folgendes zurückgegeben (\x ist für die erweiterte Anzeige aktiviert):
recognize_pii_entities | ("New modern house built in 2013. Spectacular sunset/water views, light, rooftop deck and lounge area, hot tub, 5 bedrooms, gourmet kitchen. Perfect for 2-3 families, walk to downtown. Located in highly desirable Queen Anne neighborhood. Our house is modern, light and fresh with a warm simple palette accented with barnwood, steel and concrete. Open living spaces for entertaining, gourmet kitchen, deck off the kitchen, reading nook, half bath and smaller tv room off kitchen. Fireplace with sofa and sitting area. Basement room is great for ****...this room has patio access and a garage door that opens into the space with basketball hoop right outside. A queen bedroom and full bath are in the basement with concrete heated floors. A queen sleeper sofa is in the tv area in the basement. This room has a door if privacy is needed. Great for a second ****** with ****. The 2nd floor has 4 bedrooms (one queen in master, one twin bedroom, another bedroom has twin bunk beds and the last","{""(kids,PersonType,\\""\\"",0.73)"",""(family,PersonType,\\""\\"",0.71)"",""(kids,PersonType,\\""\\"",0.65)""}")
Zusammenfassung
Die PII-Erkennung identifiziert und kategorisiert personenbezogene Informationen in unstrukturiertem Eingabetext. Das Sprachmodell von Azure Cognitive Services erledigt die schwere Arbeit, und die azure_ai Erweiterung für Azure Database for PostgreSQL stellt die azure_cognitive.recognize_pii_entities API bereit, um PII direkt in SQL-Abfragen zu erkennen und zu schwärzen.