Was ist die Erkennung personenbezogener Informationen (Personally Identifiable Information, PII) in Azure KI Language?

Artikel
05/21/2024

Ab Juni 2024 bieten wir nun allgemeine Verfügbarkeit für den Conversational PII-Dienst (nur in englischer Sprache). Kunden können jetzt Transkripte, Chats und andere Texte, die im Konversationsstil geschrieben sind (d.h. Text mit „ähm“s, „ah“s, mehreren Sprechern und dem Buchstabieren von Wörtern für mehr Klarheit), mit mehr Vertrauen in die KI-Qualität, Azure SLA-Unterstützung und Unterstützung der Produktivumgebung sowie mit Blick auf die Sicherheit in Unternehmen redigieren.

Die Erkennung personenbezogener Informationen ist ein Feature von Azure KI Language. Dabei handelt es sich um eine Sammlung von Algorithmen für maschinelles Lernen und KI in der Cloud für die Entwicklung intelligenter Anwendungen, die geschriebene Sprache beinhalten. Die PII-Erkennungsfunktion kann vertrauliche Informationen in unstrukturiertem Text identifizieren, kategorisieren und unkenntlich machen. Beispiele: Telefonnummern, E-Mail-Adressen und Identifikationsdaten. Azure KI Language unterstützt die Redaktion allgemeiner personenbezogener Daten (PII) in Textform sowie Conversational PII, ein spezielles Modell für die Bearbeitung von Sprachtranskriptionen und den informelleren, gesprächigen Ton von Besprechungs- und Gesprächsprotokollen. Der Dienst unterstützt auch die Reaktion nativer Dokument-PII, wobei die Eingabe und Ausgabe strukturierte Dokumentdateien sind.

Schnellstarts sind Anleitungen zu den ersten Schritten, die Sie durch das Senden von Anforderungen an den Dienst führen.
Schrittanleitungen enthalten Anweisungen zur spezifischeren oder individuelleren Verwendung des Diensts.
Die Konzeptartikel enthalten ausführliche Beschreibungen der Funktionen und Features des jeweiligen Diensts.

Typischer Workflow

Um dieses Feature zu verwenden, übermitteln Sie Daten zur Analyse und verarbeiten die API-Ausgabe in Ihrer Anwendung. Die Analyse wird ohne zusätzliche Anpassung des Modells durchgeführt, das für Ihre Daten verwendet wird.

Erstellen Sie eine Azure KI Language-Ressource, die Ihnen den Zugriff auf die Features von Azure KI Language ermöglicht. Hierbei werden ein Kennwort (als „Schlüssel“ bezeichnet) und eine Endpunkt-URL generiert, die Sie zum Authentifizieren von API-Anforderungen verwenden können.
Erstellen Sie eine Anforderung, indem Sie entweder die REST-API oder die Clientbibliothek für C#, Java, JavaScript oder Python verwenden. Sie können auch asynchrone Aufrufe per Batchanforderung senden, um API-Anforderungen für mehrere Features in einem gemeinsamen Aufruf zu kombinieren.
Senden Sie die Anforderung, die Ihre Textdaten enthält. Ihr Schlüssel und Endpunkt werden für die Authentifizierung verwendet.
Streamen oder speichern Sie die Antwort lokal.

Unterstützung von nativen Dokumenten

Ein natives Dokument bezieht sich auf das Dateiformat, das zur Erstellung des Originaldokuments verwendet wurde, z. B. Microsoft Word (docx) oder eine portierbare Dokumentdatei (pdf). Durch die Unterstützung nativer Dokumente ist vor der Nutzung von Azure KI Language-Ressourcen keine Textvorverarbeitung mehr erforderlich. Derzeit steht die Unterstützung nativer Dokumente für die Funktion PiiEntityRecognition zur Verfügung.

Derzeit unterstützt Personenbezogene Informationen die folgenden nativen Dokumentformate:

Dateityp	Dateierweiterung	Beschreibung
Text	`.txt`	Ein unformatiertes Textdokument.
Adobe PDF	`.pdf`	Ein als portierbare Dokumentdatei formatiertes Dokument
Microsoft Word	`.docx`	Eine Microsoft Word-Dokumentdatei

Weitere Informationen finden Sie unter Verwenden nativer Dokumente für die Sprachverarbeitung.

Erste Schritte mit der Erkennung personenbezogener Informationen

Zur Verwendung der Erkennung personenbezogener Informationen übermitteln Sie Text zur Analyse und verarbeiten die API-Ausgabe in Ihrer Anwendung. Die Analyse wird ohne Anpassung des Modells durchgeführt, das für Ihre Daten verwendet wird. Es gibt zwei Möglichkeiten, die Erkennung personenbezogener Informationen zu nutzen:

Entwicklungsoption	BESCHREIBUNG
Language Studio	Language Studio ist eine webbasierte Plattform, mit der Sie ohne Azure-Konto und mit Ihren eigenen Daten die Verknüpfung von Entitäten mit Textbeispielen ausprobieren können, wenn Sie sich registrieren. Weitere Informationen finden Sie auf der Language Studio-Website oder im Language Studio-Schnellstart.
REST-API oder Clientbibliothek (Azure SDK)	Integrieren Sie die Erkennung personenbezogener Informationen mithilfe der REST-API oder der Clientbibliothek, die in zahlreichen Sprachen verfügbar ist, in Ihre Anwendungen. Weitere Informationen finden Sie im Schnellstart zur Erkennung personenbezogener Informationen.

Referenzdokumentation und Codebeispiele

Wenn Sie dieses Feature in Ihren Anwendungen verwenden, lesen Sie die folgende Referenzdokumentation und die Beispiele für Azure KI Language:

Entwicklungsoption/Sprache	Referenzdokumentation	Beispiele
REST-API	REST-API-Dokumentation
C#	C#-Dokumentation	Beispiele für C#
Java	Java-Dokumentation	Java-Beispiele
JavaScript	JavaScript-Dokumentation	JavaScript samples (JavaScript-Beispiele)
Python	Python-Dokumentation	Python-Beispiele

Verantwortungsbewusste künstliche Intelligenz

Zu einem KI-System gehört nicht nur die Technologie, sondern auch die Personen, die es verwenden, die davon betroffenen Personen und die Bereitstellungsumgebung. Weitere Informationen zur verantwortungsbewussten Verwendung und Bereitstellung von KI in Ihren Systemen finden Sie unter dem Transparenzhinweis für personenbezogene Informationen. Weitere Informationen finden Sie in den folgenden Artikeln:

Beispielszenarien

Nutzen Sie Kennzeichen für Vertraulichkeitsstufen – Abhängig von den Ergebnissen des PII-Dienstes kann beispielsweise die Vertraulichkeitsbezeichnung „öffentlich“ auf Dokumente angewandt werden, in denen keine PII-Entitäten erkannt werden. Für Dokumente, bei denen US-Adressen und Telefonnummern erkannt werden, kann z.B. die Bezeichnung „vertraulich“ verwendet werden. Die Bezeichnung „streng vertraulich“ kann für Dokumente verwendet werden, in denen Bankleitzahlen erkannt werden.
Persönliche Daten in Dokumenten unkenntlich machen, die eine größere Verbreitung finden – Wenn beispielsweise Kundenkontaktdaten für Mitarbeitende des Support in Service und Produktion zugänglich sind,kann das Unternehmen alle persönlichen Daten von Kund*innen außer des Namens aus der Version der Kundenhistorie entfernen, um deren Privatsphäre zu schützen.
Persönliche Informationen unkenntlich machen, um unbewusste Vorurteile zu vermeiden – Beispielsweise kann ein Unternehmen während der Überprüfung des Lebenslaufs Name, Adresse und Telefonnummer blockieren, um unbewusste geschlechtsspezifische oder andere Vorurteile zu vermeiden.
Ersetzen Sie personenbezogene Daten in Quelldaten für maschinelles Lernen, um Ungerechtigkeiten zu vermeiden – Wenn Sie beispielsweise Namen entfernen möchten, die beim Trainieren eines maschinellen Lernmodells das Geschlecht preisgeben könnten, können Sie den Dienst verwenden, um diese zu identifizieren und durch generische Platzhalter für das Modelltraining zu ersetzen.
Entfernen Sie persönliche Informationen aus der Callcenter-Transkription – Wenn Sie beispielsweise Namen oder andere PII-Daten entfernen möchten, die in einem Callcenter-Gespräch zwischen dem Agenten und dem Kunden ausgetauscht wurden. Sie könnten den Dienst verwenden, um diese zu identifizieren und zu entfernen.
Datenbereinigung für Datenforschung – Mithilfe von PII können Daten aufbereitet werden, sodass Datenwissenschaftler und Techniker damit das Training von Maschinen-Lernmodellen durchführen können. Daten unkenntlich machen, um sicherzustellen, dass Kundendaten nicht offengelegt werden.

Nächste Schritte

Es gibt zwei Möglichkeiten für die ersten Schritte zur Verwendung des Features für die Entitätsverknüpfung:

Language Studio, eine webbasierte Plattform, mit der Sie mehrere Sprachdienstfunktionen ausprobieren können, ohne selbst programmieren zu müssen.
Im Schnellstartartikel finden Sie eine Anleitung zum Senden von Anfragen an den Dienst mithilfe der REST-API und des Clientbibliothek-SDK.

Freigeben über